Briuselio laisvojo universiteto (Vrije Universiteit Brussel, VUB) Duomenų analizės laboratorija paskelbė naujus rezultatus, rodančius, kad naudojant komercinius kalbos modelius įmanoma sukurti originalius matematinius įrodymus.
Straipsnyje, paskelbtame „arXiv“ išankstinio spausdinimo serveryje, tyrėjai rodo, kad „OpenAI“ komercinis didelis kalbos modelis (Large Language Model, LLM) „ChatGPT-5.2“ (Thinking) galėtų savarankiškai išspręsti matematinę problemą.
Hipotezės ir įrodymo paaiškinimas
Šis konkretus atvejis buvo susijęs su įrodymu, paaiškinančiu matematikų Ran ir Teng 2024 m. hipotezę. Hipotezė yra teiginys, kuris laikomas teisingu, nes yra daug pavyzdžių ar požymių, tačiau kuriam dar nėra oficialaus įrodymo. Matematikai dažnai formuluoja tokią hipotezę atradę dėsningumą arba atlikę daugybę skaičiavimų, kurie visada duoda tą patį rezultatą. Kol niekas nepateikia galutinio įrodymo, tai lieka spėjimu; kai tik jis įrodomas, jis virsta teorema.
Tyrime aprašoma, kaip septynios pokalbių sesijos su „ChatGPT“ ir keturios įrodymo versijos kartu davė galutinį įrodymą. „ChatGPT“ pasirodė ypač naudingas ieškant įrodymo, o žmonių ekspertai buvo būtini teisingumo patikrinimui ir galutiniam argumentavimui.
Kiek iš tikrųjų padarė dirbtinis intelektas
Autoriai parodo, kad „ChatGPT-5.2“ (Thinking) iš esmės sukūrė paties įrodymo struktūrą, su minimaliu žmogaus įsikišimu. Trumpai tariant, „Su Duomenų analizės laboratorija esame vieni pirmųjų, kurie pademonstravo, kad komerciškai prieinamas LLM gali savarankiškai kurti originalius matematinius įrodymus.“
„Jau seniai įtariau, kad „ChatGPT“ gali padėti man įrodyti neišspręstas matematines problemas“, – sako Brechtas Verbekenas (VUB Duomenų analizės laboratorijos tyrimų grupės podoktorantūros tyrėjas). „Ir vis dėlto buvau nustebintas, kaip efektyviai tai pavyko.“
Ateities kryptys
Tyrėjai savo darbą pateikia platesniame kontekste, kurį jie vadina vibracijos įrodymu – metodu, kai kalbos modeliai naudojami aukšto lygio teoriniam samprotavimui tirti ir struktūrizuoti. Pagrindinis leidinyje keliamas klausimas – ar ši vibracijos įrodymo technika ateinančiais metais patirs tokią pačią sparčią evoliuciją, kaip anksčiau buvo matyti dirbtinio intelekto padedamame programavime (vibracijos kodavimas), kur sistemos vystėsi nuo įrankių iki praktiškai autonominių kodo generatorių.
„Dažnai girdime, kaip žmonės mano, kad sistemų kūrybiškumas iš esmės apsiriboja jų mokymo duomenų performulavimu“, – sako VUB profesorius Vincentas Ginis (Duomenų analizės laboratorija). „Džiaugiuosi, kad savo darbu galime išsklaidyti ir šią klaidingą nuomonę.“
Žmonių priežiūra ir tyrimų poveikis
Autoriai pabrėžia, kad nors pats modelis sukūrė didelę dalį įrodymų bazės, žmonės vis dar yra labai svarbūs užbaigiant patikrinimą ir užpildant formalias spragas, ir kad šis procesas suteikia svarbių įžvalgų apie tai, kur LLM pagalba iš tikrųjų daro įtaką ir kur išlieka patikrinimo kliūtys.
Šis atradimas žymi svarbų momentą diegiant dirbtinį intelektą teoriniuose tyrimuose – ne tik kaip programavimo ir teksto kūrimo priemonę, bet ir kaip įrankį, galintį prisidėti prie originalių matematinių atradimų, jei tai derinama su žmogaus priežiūra ir kritiniu mąstymu. „Dabar įrodymų kandidatų formulavimas gali būti daug greitesnis, tačiau kliūtimi tampa žmogaus atliekamas patikrinimas. Tam reikia laiko. Tačiau kalbos modeliai mums padės ir čia“, – daro išvadą VUB profesorius Andresas Algaba.
Brecht Verbeken et al, Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking), arXiv (2026). DOI: 10.48550/arxiv.2602.18918
