Tyrimas rodo, kad žmogaus smegenys ir dirbtinio intelekto kalbos atpažinimo sistema dekoduoja kalbą panašiais etapais

Per pastaruosius dešimtmečius kompiuterių mokslininkai sukūrė daugybę dirbtinio intelekto (DI) sistemų, kurios gali apdoroti žmogaus kalbą skirtingomis kalbomis. Tačiau dar nėra iki galo nustatyta, kiek šie modeliai atkartoja smegenų procesus, kuriais žmonės supranta šnekamąją kalbą.

Kolumbijos universiteto, IBM tyrimų ir Feinšteino medicinos tyrimų institutų tyrėjai neseniai atliko tyrimą, kuriuo siekė palyginti, kaip automatinio kalbos atpažinimo (automatic speech recognition, ASR) sistemos ir žmogaus smegenys dekoduoja kalbą. Jų išvados, paskelbtos žurnale „Nature Machine Intelligence“, rodo, kad aktyvumas tam tikrose smegenų srityse, kai žmonės supranta šnekamąją kalbą, atitinka konkrečius DI modelių kalbos apdorojimo etapus.

Kalbos apdorojimo smegenyse etapai, pagrįsti ASR modeliavimu. Šaltinis: „Nature Machine Intelligence“ (2026). DOI: 10.1038/s42256-026-01185-0

„Pagrindinė mįslė, kurią norėjome išspręsti, yra tai, kaip žmogaus smegenys atlieka neįtikėtiną skaičiavimo žygdarbį – neapdorotas akustines vibracijas, kalbos garsus, paverčia atskira kalbine reikšme“, – „Tech Xplore“ sakė vyresnioji straipsnio autorė Nima Mesgarani. „Dabar turime dirbtinio intelekto sistemas, kurios transkribuojant kalbą prilygsta žmogaus našumui, tačiau nežinojome, ar jos šiuos sprendimus pasiekia savarankiškai, ar vadovaujasi ta pačia strategija kaip ir mūsų biologija.“

Smegenų veiklos derinimas su dirbtinio intelekto kalbos apdorojimu
Pagrindinis Mesgarani, Menoua Keshishian (pirmojo straipsnio autoriaus) ir jų kolegų neseniai atlikto darbo tikslas buvo nustatyti, ar dirbtinio intelekto modeliai ir žmogaus smegenys garsus paverčia prasme, naudodami panašias pagrindines skaičiavimo strategijas. Norėdami tai padaryti, jie palygino pasikartojančių neuroninių tinklų (recurrent neural networks, RNN), apmokytų atpažinti kalbą, vidinius atvaizdavimus su smegenų aktyvumo įrašais, užfiksuotais 15 pacientų, kurie buvo stebimi gydant epilepsiją.

„Šiems pacientams tiesiai į klausos žievę buvo implantuoti didelės skiriamosios gebos elektrodai, skirti nustatyti nenormalų smegenų aktyvumą“, – aiškino Mesgarani. „Stebėjimo metu jie savanoriškai sutiko klausytis 30 minučių nepertraukiamų istorijų.“

Tyrėjai įrašus, surinktus tyrimo dalyvių smegenyse, jiems klausantis pasakojamų istorijų, palygino su dirbtinio intelekto sistemų, kurios apdorojo tų pačių istorijų garso įrašus, vidinėmis būsenomis. Jų tyrime nagrinėtos dirbtinio intelekto sistemos buvo RNN – skaičiavimo modeliai, sukurti imituoti biologinių neuroninių tinklų architektūrą.

„Skirtingai nuo daugelio įprastų dirbtinio intelekto modelių (pvz., transformatorių, naudojamų dideliuose kalbos modeliuose), mūsų naudotas RNN yra „priežastinis“, o tai reiškia, kad jis apdoroja kalbą žingsnis po žingsnio, kai tik ji vyksta, panašiai kaip žmogaus smegenys“, – sakė Mesgarani. „Mes leidome tas pačias istorijas dirbtiniam intelektui ir stebėjome jo vidines būsenas kiekviename programos sluoksnyje. Naudodami regresijos metodus, galėjome pamatyti, ar konkretūs dirbtinio intelekto „sluoksniai“ veikia kaip skaitmeninė erdvė konkretiems smegenų „rajonams“. Mes išbandėme viską – nuo neapdoroto garso iki sudėtingos semantinės reikšmės.“

Įdomu tai, kad Mesgarani, Keshishian ir jų kolegos nustatė, kad hierarchija, pagal kurią žmonių dalyvių smegenys apdorojo pasakojamas istorijas, priminė RNN vidinių sluoksnių atliekamą žingsnis po žingsnio kalbos apdorojimą. Paprastai tariant, tiek dirbtinio intelekto modelis, tiek žmogaus smegenys, regis, palaipsniui suprato šnekamąją kalbą, galiausiai dekoduodami jos reikšmę.

„Abi sistemos laikosi beveik identiškos sekos, pereidamos nuo pagrindinių akustinių ypatybių prie fonetinės, tada leksinės (žodžių) ir galiausiai semantinės informacijos“, – aiškino Mesgarani. „Giliau į DI sluoksnius, informacija topografiškai susiejama su žmogaus žievės hierarchija, judėdama nuo pirminio klausos branduolio iki aukštesnės eilės kalbos regionų. Tai rodo, kad ši specifinė hierarchinė transformacija greičiausiai yra patikimas ir efektyvus skaičiavimo sprendimas, kurį atrado tiek biologinė evoliucija, tiek užduotims optimizuotas DI.“

Tolesnio tyrimo ir DI plėtros galimybės

Šio neseniai atlikto tyrimo rezultatai rodo, kad ASR modeliai, ypač RNN, apdoroja kalbą taikydami skaičiavimo strategijas, kurios labai panašios į smegenų procesus. Ateityje jie galėtų įkvėpti tolesnes pastangas, skirtas dar išsamiau palyginti, kaip žmogaus smegenys ir konkretūs DI modeliai atlieka skirtingas užduotis.

„Naudodami modelius, kurie galiausiai atitinka žmogaus našumą, galime juos laikyti „skaidria“ smegenų versija, kad suprastume jų skaičiavimo principus“, – sakė Mesgarani. „Tačiau tai tik pradžia. Nors mūsų dirbtinio intelekto modelis yra vieno kelio, smegenys yra ryškiai lateralizuotas; kairysis pusrutulis yra daug labiau dominuojantis atliekant aukšto lygio kalbos užduotis. Vis dar turime suprasti, kodėl biologija teikia pirmenybę šiam „dvipusiam“ padalijimui ir ar „dvigubo kelio“ dirbtinio intelekto modelių kūrimas atskleis naujų įžvalgų apie tai, kaip mes tvarkome sudėtingą bendravimą.“

Pažymėtina, kad šių tyrėjų pastebėta į smegenis panaši skaičiavimo strategija RNN atsirado tik tuo atveju, jei modeliai buvo apmokyti kalbėti konkrečia kalba. Kituose tyrimuose jie norėtų toliau tyrinėti šį stebėjimą ir nustatyti, ar jis galėtų atspindėti, kaip smegenys apdoroja gimtąją ar užsienio kalbas.

„Klausiame: ar smegenys, apmokytos vienos kalbos, apdoroja antrą kalbą naudodamos tą pačią „aparatinę įrangą“, bet kitokią „programinės įrangos“ strategiją?“ – pridūrė Mesgarani. „Mūsų galutinis tikslas yra ne tik sukurti geresnį dirbtinį intelektą, bet ir panaudoti šiuos modelius kaip aiškią hipotezę, kaip smegenys sprendžia garso ir prasmės konvertavimo problemą. Mes judame į ateitį, kurioje galėsime imituoti smegenų kalbos apdorojimą, kad tiksliai suprastume, kas daro mūsų biologinį intelektą unikalų ir kaip šis procesas gali sutrikti.“

Menoua Keshishian et al, Parallel hierarchical encoding of linguistic representations in the human auditory cortex and recurrent automatic speech recognition systems, Nature Machine Intelligence(2026). DOI: 10.1038/s42256-026-01185-0

Kiek dar „gūglinsim“? Ekspertas paaiškino, kaip dirbtinis intelektas keičia informacijos paieškos įpročius

Investicijų strategas: dirbtinis intelektas keičia finansų rinkas, bet didina ir rizikas

Lietuvos universitetai: generatyvinis dirbtinis intelektas – galimybė stiprinti studijų kokybę