Nauji dirbtinio intelekto „AlphaZero“ pasiekimai

„Google“ padalinys „DeepMind“, kuriantis dirbtinio intelekto sistemas, paskelbė, kad jų kuriamas algoritmas „AlphaZero“ išmėgino savo jėgas su viena geriausių atviro kodo šachmatų programų „Stockfish 8“ ir iš 100 žaidimų nepralaimėjo nei vieno – visi baigėsi arba „AlphaZero“ pergale, arba lygiosiomis.

Įdomu, kad „AlphaZero“ žaidė praėjus tik 4 valandoms po to, kai šiam algoritmui buvo įvestos šachmatų taisyklės ir po to kelias valandas šio žaidimo jis mokėsi pats, žaisdamas prieš save.

Dar vienas įdomus pasiekimas apie kurį paskelbė „DeepMind“ – tai, kad „AlphaZero“ per mažiau nei 24 valandas sugebėjo išmokti žaisti tris sudėtingus stalo žaidimus, ir visus – lygiu, pralenkiančiu tiek žmones, tiek ir kompiuterines programas. Šie žaidimai – Go, šogi (japoniški šachmatai) ir šachmatai. Tai didelis pasiekimas dirbtinio intelekto srityje.

Kaip teigė Oksfordo universiteto profesorius Maiklas Voldridžas (Michael Wooldridge), kurį citavo BBC, „DeepMind“ bendra trajektorija, atrodo, yra išspręsti problemą ir to pademonstruoti, kad tai galima padaryti ir dar geriau, o tai labai įspūdinga“. Tuo pačiu metu jis pastebėjo, kad šie trys žaidimai yra gana uždari, ta prasme, kad jie turi ribotą taisyklių rinkinį. „Realiame pasaulyje mes nežinome, kas yra už kampo. Spręsti problemas, kai jūs nežinote, kas netrukus gali nutikti, yra daug sudėtingiau. Bus labai įdomu stebėti, kai „DeepMind“ pereis prie atviresnių problemų sprendimo.“

Beje, „AlphaZero“ nebuvo sukurtas kurtas žaisti šachmatus, kaip kitos specializuotos programos, ar ta pati„Stockfish 8“. „AlphaZero“ tiesiog buvo įvestos pagrindinės taisyklės, pavyzdžiui, kaip juda pėstininkai, bokštai, tačiau nebuvo užprogramuota jokių šachmatų žaidimų teorijų ar strategijų. Nebuvo analizuojamos ir meistrų partijos. Tiesiog algoritmui buvo leista žaisti pačiam su savimi, ir taip mokytis. Šis būdas vadinamas sustiprintuoju mokymosi (angl. reinforcement learning).

„DeepMind“ tyrėjai teigia, kad šis „AlphaZero“ algoritmas yra bendresnė versija „AlphaGo Zero“ algoritmo, kuris visai neseniai buvo naudojamas „Go“ žaidime ir taip pat parodė įspūdingus rezultatus.

Naujajam „AlphaZero“ algoritmui visai nereikalingos papildomos žinios ar konkrečios srities specifikacijos, kurios yra naudojamos tiek tradicinėse kompiuterinėse sudėtingų žaidimų programose, tiek ir programose, naudojančiose neuronų tinklus.

„DeepMind“ tikslas – sukurti dirbtinį intelektą, kuris galėtų pats mokytis ir pranoktų žmones daugelyje sudėtingų sričių. Atrodo, kad prie šio tikslo artėjama pakankamai greitai.

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, arXiv:1712.01815 [cs.AI] arxiv.org/abs/1712.01815

Daugiau:

Savarankiškai besimokantis dirbtinis intelektas tampa dar protingesnis

Įvardintas pagrindinis skirtumas tarp žmonių ir gyvūnų smegenų

Dirbtinis intelektas vaizduotės spąstuose – jis bus kitoks nei tikimės

Stebėti žiniasklaidą Lietuvoje pirmą kartą padeda dirbtinis intelektas

Dirbtinis intelektas sukūrė pirmąją melodiją

„Google“ kuria naują vaizdo sintezės metodą

„Intel“ paskelbė netrukus išleisianti pirmuosius lustus, skirtus dirbtinio intelekto sistemoms

Kuriama dirbtinio intelekto sistema, kuri pati galėtų programuoti