Universalūs modeliai išryškėja 22 kalbose, atvaizduojant žodyno raidą

Žinoma, kad žmonių kalbos per visą istoriją vystėsi ir keitėsi, dažnai atspindėdamos technologinius, kultūrinius ir visuomeninius pokyčius. Kalbų evoliucijos tyrimas gali suteikti vertingų įžvalgų apie tai, kaip laikui bėgant keitėsi žmonių visuomenės ir kultūros.

universal patterns eme

Dažnai vartojami žodžiai išlieka arčiau kitų dažnai vartojamų žodžių, apibrėždami semantiškai populiarius regionus. Kairėje: intuityvi diagrama. Dešinėje: sklaidos diagramos, apskaičiuotos naudojant „Word2vec“ ir „wordfreq“ duomenų rinkinius. Šaltinis: Guo ir kt. (Proceedings B, 2026).

Fudano, Harvardo ir Stony Brooko universitetų tyrėjai neseniai tyrinėjo 22 kalbų evoliuciją, naudodami dirbtinio intelekto (DI) įrankių, statistinių metodų ir didžiulės realių lingvistikos duomenų saugyklos derinį. Jų straipsnyje, paskelbtame Proceedings of the Royal Society B Biological Sciences leidinyje, nustatoma bendra statistinė struktūra visoms tirtoms kalboms ir jų evoliuciją pagrindžiantys modeliai.

„Nauji žodžiai, sąvokos ir idėjos generuojami nuolat, bet ar egzistuoja paslėpti modeliai, kurie lemia, kurios sąvokos greičiausiai atsiras? Ar yra paprastų matematinių modelių, kurie imituoja šį procesą?“ – „Phys.org“ sakė vyresnysis straipsnio autorius Stevenas Skiena. „Mus įkvėpė idėja, kad mašininio mokymosi technologijos kalbos semantikai pavaizduoti suteikia mums griežtą būdą samprotauti apie sudėtingą žmogaus kalbos teikiamą medžiagą.“

Kalbos evoliucijos tyrimas senais ir naujais metodais

Norėdami ištirti žmonių kalbų ir kultūrų evoliuciją, Skiena ir jo kolegos naudojo natūralios kalbos apdorojimo (natural language processing, NLP) metodus – algoritmus, skirtus tekstams ar kalbai analizuoti. Šie modeliai vaizduoja žodžius naudodami vadinamuosius žodžių įterpimus.

Žodžių įterpimai yra skaitmeniniai žodžių atvaizdavimai, kurie susieja kiekvieną žodyno žodį su konkrečiu tašku didelės dimensijos semantinėje erdvėje. Šioje erdvėje žodžiai, turintys panašią reikšmę, vaizduojami kaip netoliese esantys taškai.

„Iš esmės mūsų straipsnyje klausiama, kaip skirtingų kalbų žodynas pasiskirsto šioje požymių erdvėje ir koks matematinis procesas sukurtų panašų pasiskirstymą“, – aiškino Skiena. „Mūsų straipsnis buvo kuriamas neįtikėtinai ilgai: kartu prie to dirbame jau daugiau nei septynerius metus ir puiku matyti, kur pagaliau priėjome.“
Tyrėjai panaudojo didelius duomenų rinkinius, kuriuose buvo žodžiai anglų ir 21 kita kalba, o tada šiuos žodžius pateikė kaip žodžių įterpimus. Tai leido jiems matematiškai nustatyti jų reikšmę ir ieškoti dėsningumų, kaip jie susiję vienas su kitu.

„Mes sujungėme kalbinius duomenis, siekiančius viduramžius, ir gana nusistovėjusius įrankius, tokius kaip erdvinės statistikos metodai, populiarūs kiekybinėje geografijoje ir aplinkos moksluose, su labai moderniais mašininio mokymosi ir NLP kalbos metodais“, – aiškino Sergiy Verstyuk, straipsnio bendraautoris. „Tai leido mums atskleisti kai kuriuos faktus apie kultūrą, kurie pasitvirtino daugeliui skirtingų žmonių kalbų šiandien ir per visą mūsų istoriją.“

Įdomu tai, kad Skiena, Verstyuk ir jų kolegos nustatė, kad 22 kalbos, kurias jie sistemingai analizavo, turėjo tam tikrų universalių modelių. Pirma, jie nustatė, kad populiarūs žodžiai nuolat grupuojasi su kitais populiariais žodžiais, sudarydami „populiarius“ dažnai vartojamų žodžių regionus.

Tyrėjai taip pat atskleidė bendrus žodžių grupavimosi greičio profilius. Kitaip tariant, jie nustatė, kad žodyno žodžiai buvo organizuoti hierarchiniu modeliu, o šios hierarchijos struktūra visose analizuotose kalbose buvo iš esmės tokia pati.

„Mes taip pat pastebėjome įdomią laiko dinamiką, rodančią, kad nauji žodžiai paprastai kuriami pliūpsniais kartu su kitais neseniai juos supančiais žodžiais“, – sakė Skiena. Tai šiek tiek primena, kaip biologinė evoliucija vyksta sparčiais reikšmingų genetinių ar morfologinių pokyčių laikotarpiais.

Be to, jie nustatė, kad vadinamasis Teiloro dėsnis, iš pradžių atrastas ekologinėms bendruomenėms, o vėliau identifikuotas kituose biologinėse sistemose, fiziniuose duomenyse ir matematiniuose objektuose, taip pat galioja ir žodyno žodžiams. Šiuo atveju tai yra laipsninio dėsnio tipo matematinis ryšys, jungiantis žodžių skaičiaus, surūšiuoto pagal jų semantinę reikšmę ir istorinę išvaizdą, vidurkį ir dispersiją, o tai leidžia mums vienu metu suprasti kalbos semantiką ir evoliuciją.

Šis tyrimas pateikia įdomių naujų įžvalgų apie tai, kaip skirtingos kalbos vystėsi per pastaruosius šimtmečius, ir apie daugybę jų panašumų. Apibendrinant, jų atskleisti statistiniai modeliai gali turėti įtakos tikslesniam žmonių kalbų supratimui. Dar svarbiau, kad yra įrodymų, jog kitose žmonių kultūros srityse yra panašių modelių.

Komandos analizė leido jiems nustatyti stochastinį matematinį procesą, kuris generuoja panašių savybių žodžių rinkinius. Šis procesas galėtų iš dalies paaiškinti mechaniką, kuria buvo kuriamos žmonių kalbos ir kaip jos vystėsi laikui bėgant.

„Sukūrėme stebėtinai paprastą modelį, kuris ne tik atkartoja ankstesnius žodžių dažnių laipsninio dėsnio skirstinio rezultatus (t. y. pasireiškia viename matmenyje), bet ir atsižvelgia į naujus empirinius atradimus daugelyje papildomų matmenų (konkrečiai, 300 matmenų semantinėje erdvėje ir istoriniame laike)“, – sakė Verstyukas. „Tai buvo pasiekta sujungiant gerai žinomą kaupiamojo pranašumo procesą su retai naudojamu von Mises-Fisher tikimybių skirstiniu.“

Ateityje šis darbas galėtų įkvėpti tolesnius lingvistikos ir antropologijos tyrimus, kuriuose būtų naudojami NLP metodai ir kiti dirbtinio intelekto (DI) įrankiai, taip pat formalus matematinis modeliavimas. „Mes ir toliau džiaugiamės galimybėmis naudoti DI sugeneruotus įterpimus kaip įrankį fundamentiniams tyrimams, siekiant suprasti istorinius kultūrinės evoliucijos procesus, o ne tik kuriant technologines priemones“, – pridūrė Skiena.

Tyrimas apėmė anglų ir 21 kitą kalbą (bengalų, katalonų, danų, vokiečių, esperanto, ispanų, suomių, prancūzų, hindi, vengrų, indoneziečių, italų, japonų, olandų, norvegų, lenkų, portugalų, rusų, švedų, tajų, kinų) ir net aštuonis istorijos amžius.

Xingzhi Guo et al, Statistical structure and the evolution of languages, Proceedings of the Royal Society B Biological Sciences (2026). DOI: 10.1098/rspb.2025.2374.

Kuriama Lietuvių kalbos sintaksinės-semantinės analizės informacinė sistema

Tyrimas rodo, kad žmogaus smegenys ir dirbtinio intelekto kalbos atpažinimo sistema dekoduoja kalbą panašiais etapais

Nauja komunikacijos era: DI ir regos bei kalbos modeliai lietuvių kalboje

KTU mokslininkė: dėl DI vertėjai ir kalbininkai yra ir bus prestižinė profesija