Užmiršimas gali būti geresnio dirbtinio intelekto kalbos mokymosi paslaptis

Suteikus dirbtiniam intelektui panašų į žmogaus atminties apribojimą, tai gali padėti jam geriau mokytis kalbos. neuronas Savo naujame tyrime Abishek Thamma (Amsterdamo universitetas) ir Micha Heilbron (Maxo Plancko psicholingvistikos institutas) rodo, kad maži kalbos modeliai, turintys trumpalaikę atmintį, efektyviau mokosi gramatikos, kai yra mokomi vaiko lygio kalbos įvesties kiekiais. Išvados rodo, kaip psicholingvistikos įžvalgos gali įkvėpti naujus požiūrius į dirbtinio intelekto mokymąsi. Išvados paskelbtos žurnale „Transactions of the Association for Computational Linguistics“.

Tyrimas remiasi sena kognityvinio mokslo idėja: kad žmogaus atminties apribojimai iš tikrųjų gali padėti mokytis kalbos. Žmonėms apdorojant kalbą, tikslios žodžių ir sakinių formos greitai pamirštamos. Šis apribojimas, užuot buvęs trūkumu, gali padėti besimokantiesiems sutelkti dėmesį į pasikartojančius modelius ir įgyti abstrakčių gramatikos žinių.

Norėdami patikrinti, ar šis principas taip pat galėtų būti naudingas dirbtiniam intelektui, tyrėjai į šiuolaikinius neuroninius kalbos modelius įvedė atminties apribojimą. Nors šiuolaikinės dirbtinio intelekto sistemos paprastai turi prieigą prie daug išsamesnės kalbinės informacijos nei žmonės, rezultatai rodo, kad pridėjus trumpalaikę atmintį, galima pagerinti mokymosi efektyvumą ir gramatinį apibendrinimą, kai mokymo duomenys yra riboti.

Atminties nykimas

Siekdami išspręsti šią problemą, Thamma ir Heilbronas į Transformer kalbos modelius įtraukė paprastą atminties nykimo formą, sukurdami tai, ką jie vadina trumpalaikės atminties transformatoriais. Heilbronas teigė: „Modeliai buvo apmokyti naudojant BabyLM etaloną – duomenų rinkinį, skirtą apytiksliai įvertinti kalbinės įvesties kiekį, prieinamą žmonėms besimokantiesiems kūrimo metu. Tai leido atlikti kontroliuojamą modelių su atminties apribojimais ir be jų palyginimą realiomis duomenų sąlygomis.“

Rezultatai pateikia nuoseklių įrodymų, kad trumpalaikė atmintis naudinga kalbos mokymuisi. Atliekant mokymo ciklą ir modelių inicijavimą, modeliai, kuriuose įdiegta atminties nykimo funkcija, pasiekė geresnių kalbos modeliavimo rezultatų ir geresnių rezultatų atliekant tikslinius sintaksės žinių vertinimus nei standartiniai Transformer modeliai.

Heilbronas tęsė: „Svarbu tai, kad ši nauda išryškėjo tik tada, kai atminties nykimas buvo suporuotas su trumpu „aido atminties“ buferiu, kuris išsaugojo naujausius tris–septynis žodžius. Atrodo, kad šie mechanizmai kartu palaiko mokymąsi, derindami tiesioginę prieigą prie vietinės informacijos su laipsnišku tolimesnių žodžių formų praradimu.“

Trumpalaikė atmintis

Šie rezultatai patvirtina ilgalaikį kognityvinio mokslo pasiūlymą, datuojamą įtakingais Elmano (1993 m.) konekcionistiniais darbais, kad atminties apribojimai gali palengvinti kalbos mokymąsi, o ne tik jį varžyti. Jie taip pat rodo, kad šiuolaikinių „Transformer“ architektūrų sėkmė nereiškia, kad neribota atmintis yra optimali kalbos mokymuisi.

Tuo pačiu metu tyrimas atskleidė netikėtą disociaciją, sakė Thamma: „Nors trumpalaikė atmintis pagerino kalbos mokymąsi, ji sumažino modelių gebėjimą numatyti žmogaus skaitymo laiką naudojant netikėtumais pagrįstus matavimus. Šis rezultatas prieštarauja įprastam modeliui, kai kalbos modeliavimo našumo pagerėjimas yra susijęs su geresniu žmogaus kalbos apdorojimo elgesio numatymu.

„Tolesnės analizės parodė, kad šio neatitikimo negalima paaiškinti esamais teiginiais, kodėl stipresni kalbos modeliai kartais prasčiau atitinka žmogaus skaitymo laiko duomenis.“ Todėl išvados rodo, kad veiksniai, skatinantys sėkmingą kalbos mokymąsi, gali skirtis nuo tų, kurie palaiko tikslų kalbos apdorojimo internete prognozavimą.“

Apibendrinus, tyrimas pateikia įrodymų, kad atminties apribojimai gali pagerinti kalbos mokymąsi šiuolaikiniuose neuroniniuose tinkluose, kartu pabrėždamas svarbų skirtumą tarp efektyvaus kalbos mokymosi ir žmogaus elgesio modeliavimo.

Pagrindinės išvados

Žmogaus atminties nykimo įtraukimas į „Transformer“ modelius pagerina kalbos mokymąsi.
Modeliai su trumpalaike atmintimi pasiekia geresnį kalbos modeliavimo našumą ir sintaksės apibendrinimą.
Mokymosi nauda priklauso nuo trumpalaikio atminties buferio, kuris išsaugo naujausius 3–7 žodžius.
Nepaisant pagerėjusio kalbos mokymosi, trumpalaikė atmintis sumažina netikėtumais pagrįstų žmogaus skaitymo laiko prognozių tikslumą.
Esami kalbos modeliavimo našumo ir elgesio prognozavimo disociacijos paaiškinimai nepaaiškina stebimo poveikio.

Šis tyrimas per šiuolaikinių kalbos modelių prizmę iš naujo nagrinėja seniai nagrinėjamą kognityvinio mokslo klausimą. Išvados rodo, kad atminties apribojimai ir toliau skatina kalbos mokymąsi net ir šiuolaikiniuose neuroniniuose tinkluose, kartu keldami naujus klausimus apie tai, kaip kalbinės žinios yra susijusios su tuo, kaip žmonės apdoroja kalbą.

Abishek Thamma et al, Human-like Fleeting Memory Improves Language Learning but Impairs Reading Time Prediction in Transformer Language Models, Transactions of the Association for Computational Linguistics (2026). DOI: 10.1162/tacl.a.688

Nauja komunikacijos era: DI ir regos bei kalbos modeliai lietuvių kalboje

Lietuvių kalba ir technologijos: VU mokslininkų projektas LIEPA-3 atvers naujas galimybes

Universalūs modeliai išryškėja 22 kalbose, atvaizduojant žodyno raidą

Tyrimas rodo, kad žmogaus smegenys ir dirbtinio intelekto kalbos atpažinimo sistema dekoduoja kalbą panašiais etapais

Dirbtinio intelekto sistema jau gali išversti anglų kalbos tekstą į programinį kodą

LMT pirmą kartą ekspertų atrankai pasitelks dirbtinį intelektą