„DeepMind“ tyrėjų grupė, pasivadinusi atvirojo mokymosi komanda (Open-Ended Learning Team), sukūrė naują būdą, kaip išmokyti dirbtinio intelekto (DI) sistemas žaisti žaidimus.
Užuot leidusi sistemai peržiūrėti milijonus ankstesnių žaidimų ir mokytis iš jų, kaip tai daroma apmokant kitas žaidimų DI sistemas, „DeepMind“ grupė savo naujiems DI sistemos agentams nustatė tik minimalius įgūdžius, kuriuos jie panaudojo siekdami nustatyto paprasto tikslo, pavyzdžiui, virtualiame žaidimo pasaulyje pastebėti kitą žaidėją, ir tada, remiantis šiuo įgudžiu, mokytis toliau.
Mokslininkai sukūrė spalvingą video žaidimo virtualų pasaulį, pavadinę jį XLand. Jame dirbtinio intelekto žaidėjai, kuriuos tyrėjai vadina agentais, leidžiasi siekti bendro tikslo, o taip įgyja įgūdžių, kuriuos gali panaudoti kitiems tikslams pasiekti. Tuomet tyrėjai kiek pakeičia žaidimo taisykles, suteikdami agentams naują tikslą, tačiau leidžia jiems išlaikyti įgūdžius, kuriuos jie įgijo žaidime anksčiau.
Vienas iš šio būdo pavyzdžių yra agentas, kuris turi tikslą patekti į tokią virtualaus pasaulio dalį, kuri jam yra per aukšta, kad į ją būtų galima tiesiogiai lipti ir kur neveda kiti prieigos taškai, tokie kaip laiptai. Mėgindamas įvairius būdus agentas nustato, kad jis gali rasti plokščią objektą, kurį, nustūmus į reikiamą vietą, jis taptų rampa, leidžiančia užlipti ten, kur reikia.
Kad žaidimo agentai galėtų išmokti daugiau įgūdžių, mokslininkai sukūrė 700 tūkstančių žaidimo scenarijų, kuriuose agentai susidūrė su maždaug 3,4 milijono unikalių užduočių. Tuomet agentai galėjo išmokti žaisti kelis žaidimo elementus, pavyzdžiui, pažymėti kitą agentą, pagrobti vėliavą, neleisti kitiems agentams užlipti ant kalniuko ar slėptis vienas nuo kito.
Kitas įdomus XLand aspektas yra tas, kad žaidime egzistuoja savotiškas viršininkas, subjektas, kuris stebi agentus ir pažymi, kokių įgūdžių jie mokosi, ir tada sukuria naujus žaidimo scenarijus, kad sustiprintų jų įgūdžius. Taikydami šį metodą, agentai mokysis tol, kol jiems bus suteikiamos naujos užduotys. Mokslininkai tokį metodą pavadino nesibaigiančių iššūkių scenarijumi.
Veikiant virtualiam žaidimo pasauliui, tyrėjai pastebėjo, kad agentai, dažniausiai atsitiktinai, išmoko naujų įgūdžių, kurie jiems pasirodė naudingi, o vėliau juos panaudojo, kad įgyti daugiau pažangių įgūdžių, tokių kaip bandymų būdas, kuomet pritrūksta galimybių įvykdyti užduotį – tuomet agentai ima bendradarbiauti vieni su kitais ar išmoksta naudotis žaidime rastais objektais kaip įrankiais.
Tyrėjų teigimu, toks būdas yra nemažas žingsnis kuriant bendrus algoritmus, kurie padėtų išmokti savarankiškai žaisti naujus žaidimus, tai yra kurti DI sistemas, kurios tiktų autonominiams robotams.
Daugiau:
Kompanijos „DeepMind“ vadovas pripažįsta, kad dirbtinio intelekto sistemos kelia ir rizikas
Dirbtinio intelekto sistema „AlphaZero“ vėl nustebino
Atmintuko dydžio neuronų tinklas
Dirbtinio intelekto sistema, kurianti naujus vaistus
