Dirbtinio intelekto sistema „AlphaZero“ vėl nustebino

Dirbtinio intelekto sistema „AlphaZero“, pradėdama žaisti nuo atsitiktinių ėjimų ir neturėdama jokių žinių apie šį žaidimą, išskyrus žaidimo taisykles, įtikinamai nugalėjo geriausias kompiuterines šachmatų, šogi (japoniškų šachmatų) ir Go žaidimo programas.

Įmonės „DeepMind“ ir Koledžo universiteto (Jungtinė Karalystė) mokslininkai sukūrė dirbtinio intelekto sistemą „AlphaZero“, galinčią mokytis trijų sudėtingų stalo žaidimų.

Žurnale „Science“ paskelbtame straipsnyje jie aprašo šią sistemą ir paaiškina, kodėl mano, kad tai yra dar vienas didelis žingsnis dirbtinio intelekto sistemų kūrime.

Prieš 20 metų superkompiuteris, pavadintas „Deep Blue“, įveikė pasaulio šachmatų čempioną Garį Kasparovą, parodydamas pasauliui, kad atėjo kompiuterių laikas. Per pastaruosius metus kompiuteriai gerokai patobulėjo ir dabar žmones įveikia ir daugelyje kitų žaidimų. Bet paprastai tokios kompiuterinės programos kuriamos vienam konkrečiam žaidimui.

Tačiau dabar mokslininkai sukūrė dirbtinio intelekto sistemą, kuri gali žaisti įvairius žaidimus, ir pati mokytis iš savo patirties.

Ji pavadinta „AlphaZero“, ir turi vadinamąjį sustiprintąjį mokymąsi – tai yra ji mokosi, pakartotinai žaisdama tą patį žaidimą daug kartų ir mokydamasi iš savo patirties – sėkmių bei klaidų. Tai, žinoma, labai panašu į tai, kaip mokosi ir žmonės.

Tačiau „AlphaZero“ net nereikia priešininkų – tereikia nustatyti taisyklių rinkinį, ir kompiuteris gali žaisti pats su savimi. Jis įsimena, kokie ėjimai ir jų rinkiniai yra geri, tai yra veda prie pergalės, o kokie – blogi ir lemia pralaimėjimą. Tai pat ji naudoja ir statistinius metodus, tokius kaip Monte Karlo metodas.

Laikui bėgant, jo žaidimas vis gerėja, skirtingai nuo įprastos žaidimo kompiuterinės programos, kuri, jei nėra tobulinama programuotojų, išlieka tokia pati.

Galų gale „AlphaZero“ tampa tokiu geru žaidėju, kad gali įveikti ne tik žmones, bet ir specializuotas kompiuterines programas ir net kitas specializuotas dirbtinio intelekto sistemas.

Mokslininkai testavimo metu sistemai „AlphaZero“ suteikė daug galios – jis gavo 5000 tenzorių procesorių (tai specialios paskirties lustai, sukurti specialiai sistemoms, kurios gali mokytis) – taip dirbtinio intelekto sistema prilygo galingam superkompiuteriui.

„AlphaZero“ turnyro rezultatai. Buvo žaidžiama šachmatais prieš „Stockfish“, Šogi prieš „Elmo“ ir Go prieš „AlphaGo Zero“. Žaliai pažymėtos „AlphaZero“ pergalės, pilkai – lygiosios, raudonai – pralaimėjimai.

„AlphaZero“ prieš turnyrą mokėsi tris dienas. Iliustr.: DeepMind Technologies Ltd.

Žaisdamas šachmatais, „AlphaZero“ rezultatu pralenkė „Stockfish“ po 4 valandų; šogi žaidime prieš „Elmo“ – po 2 valandų, ir Go žaidime prieš „AlphaGo“ (kuri yra įveikusi legendinį Go žaidėją Li Sedolį 2016 metais) – po 30 valandų.

„AlphaZero“ nagrinėja tik gana nedaug šachmatų ėjimų variantų, lyginant su tradicinėmis šachmatų kompiuterinėmis programomis. Iliustr.: DeepMind Technologies Ltd.

Kol kas „AlphaZero“ išmoko šių trijų žaidimų, nes jie, būdami sudėtingi savo galimų pozicijų skaičiumi, yra tuo pačiu aprašomi paprastomis taisyklėmis, todėl labai tinka dirbtinio intelekto programoms.

Tyrėjai iš „DeepMind“ mano, kad kitas žingsnis galėtų būti pokeris ar netgi populiarūs vaizdo žaidimai.

David Silver et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play, Science (2018). DOI: 10.1126/science.aar6404

Daugiau:

Savarankiškai besimokantis dirbtinis intelektas tampa dar protingesnis

Dirbtinis intelektas kišenėje: mąstantys telefonai

Kompanijos „DeepMind“ vadovas pripažįsta, kad dirbtinio intelekto sistemos kelia ir rizikas

Nauji dirbtinio intelekto „AlphaZero“ pasiekimai

Atmintuko dydžio neuronų tinklas

Dirbtinio intelekto sistema, kurianti naujus vaistus