Didžiausias pasaulyje olimpiados lygio matematikos uždavinių rinkinys dabar prieinamas visiems

„MathNet“ yra didžiausias kada nors sukurtas aukštos kokybės įrodymais pagrįstų matematikos uždavinių duomenų rinkinys. Jį sudaro daugiau nei 30 000 ekspertų parengtų uždavinių ir sprendimų iš 47 šalių, 17 kalbų ir 143 varžybų.

matematika Kiekvienais metais Tarptautinėje matematikos olimpiadoje dalyvaujančios šalys atvyksta su geriausių ir originaliausių savo uždavinių bukletais. Šie bukletai padalijami delegacijoms, o paskui tyliai dingsta. Niekas niekada jų sistemingai nerinko ir nedarė prieinamų – nei dirbtinio intelekto tyrėjams, bandantiems matematinio samprotavimo ribas, nei studentams visame pasaulyje, kurie šiems konkursams ruošiasi daugiausia savarankiškai.

MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL), Karaliaus Abdullah mokslo ir technologijų universiteto (KAUST) ir HUMAIN tyrėjai dabar padarė būtent tai.

„MathNet“ yra didžiausias kada nors sukurtas aukštos kokybės įrodymais pagrįstų matematikos uždavinių duomenų rinkinys ir jis nėra uždaras. Apimantis daugiau nei 30 000 ekspertų parengtų uždavinių ir sprendimų iš 47 šalių, 17 kalbų ir 143 konkursų, jis yra penkis kartus didesnis nei antras pagal dydį tokio pobūdžio duomenų rinkinys. Darbas bus pristatytas Tarptautinėje mokymosi reprezentacijų konferencijoje (ICLR 2026) Brazilijoje šio mėnesio pabaigoje.

„MathNet“ skiriasi ne tik dydžiu, bet ir platumu. Ankstesni olimpiadų lygio duomenų rinkiniai beveik išimtinai surinkti iš konkursų Jungtinėse Valstijose ir Kinijoje. „MathNet“ apima dešimtis šalių šešiuose žemynuose, 17 kalbų, apima tiek tekstinius, tiek vaizdinius uždavinius ir sprendimus, ir apima keturis dešimtmečius konkursinės matematikos. Tikslas – aprėpti visą matematinių perspektyvų ir problemų sprendimo tradicijų spektrą, egzistuojantį pasaulinėje matematikos bendruomenėje, o ne tik labiausiai matomas.

„Kiekviena šalis atsineša savo naujausių ir kūrybiškiausių uždavinių knygelę“, – sakė Shaden Alshammari, MIT doktorantas ir pagrindinis straipsnio autorius. „Jie dalijasi brošiūromis tarpusavyje, bet niekas nepasistengė jų surinkti, išvalyti ir įkelti į internetą.“

„MathNet“ sukūrimui reikėjo susekti 1595 PDF tomus, iš viso daugiau nei 25 000 puslapių, apimančių skaitmeninius dokumentus ir dešimtmečių senumo nuskaitytus dokumentus daugiau nei keliolika kalbų. Nemaža šio archyvo dalis buvo gauta iš netikėto šaltinio: Navido Safaei, ilgamečio IMO (Tarptautinės matematikos olimpiados) bendruomenės veikėjo ir bendraautorio, kuris nuo 2006 m. rinko ir skenavo šias brošiūras rankiniu būdu. Jo asmeninis archyvas sudarė didžiąją dalį duomenų rinkinio pagrindo.

Šaltinis yra toks pat svarbus kaip ir mastas. Dauguma esamų matematikos duomenų rinkinių uždavinius ima iš bendruomenės forumų, tokių kaip „Art of Problem Solving“ (AoPS), o „MathNet“ naudoja tik oficialias nacionalinių konkursų brošiūras. Šių brošiūrų sprendimai yra parašyti ekspertų ir recenzuoti, jie dažnai užima kelis puslapius, o autoriai apžvelgia kelis tos pačios problemos sprendimo būdus.

Toks gylis suteikia dirbtinio intelekto modeliams daug išsamesnį signalą matematinio samprotavimo mokymuisi nei trumpesni, neformalūs sprendimai, būdingi bendruomenės teikiamiems duomenų rinkiniams. Tai taip pat reiškia, kad duomenų rinkinys yra tikrai naudingas studentams: kiekvienas, besiruošiantis IMO ar nacionaliniam konkursui, dabar turi prieigą prie centralizuotos, paieškos būdu prieinamos aukštos kokybės uždavinių ir išbandytų sprendimų kolekcijos iš viso pasaulio tradicijų.

„Prisimenu tiek daug studentų, kuriems tai buvo individualios pastangos. Niekas jų šalyje neruošė tokio pobūdžio varžyboms“, – sakė Alshammari, kuri pati dalyvavo IMO kaip studentė. „Tikimės, kad tai suteiks jiems centralizuotą vietą su aukštos kokybės uždaviniais ir sprendimais, iš kurių jie galės mokytis.“

Komanda turi gilias šaknis IMO bendruomenėje. Bendraautoris Sultanas Albarakati šiuo metu yra IMO valdybos narys, o tyrėjai stengiasi tiesiogiai pasidalyti duomenų rinkiniu su IMO fondu. Norėdami patvirtinti duomenų rinkinį, jie subūrė vertinimo grupę, kurią sudarė daugiau nei 30 žmonių vertintojų iš tokių šalių kaip Armėnija, Ukraina, Vietnamas ir Lenkija, kurie kartu koordinavo tūkstančių sprendimų patikrinimą.

„MathNet duomenų bazė gali tapti puikiu šaltiniu tiek studentams, tiek vadovams, ieškantiems naujų problemų, su kuriomis galėtų dirbti, arba ieškantiems sprendimo sudėtingam klausimui“, – sako Tanish Patil, Šveicarijos IMO vadovo pavaduotojas. „Nors egzistuoja ir kiti olimpiadų uždavinių archyvai (ypač „AoPS“ konkursų kolekcijų forumai), šiems ištekliams trūksta standartizuotos formatavimo sistemos, patikrintų sprendimų ir svarbių uždavinių metaduomenų, kurių reikalauja temos ir teorija.

„Taip pat bus įdomu pamatyti, kaip šis duomenų rinkinys bus naudojamas samprotavimo modelių našumui gerinti ir ar netrukus galėsime patikimai atsakyti į svarbų klausimą, kai kursime naujus olimpiadų klausimus: nustatyti, ar uždavinys yra tikrai originalus.“

„MathNet“ taip pat veikia kaip griežtas dirbtinio intelekto našumo etalonas, o rezultatai atskleidžia sudėtingesnį vaizdą, nei gali pasirodyti iš pastarųjų antraštių apie dirbtinio intelekto matematikos meistriškumą. Pažangiausi modeliai padarė nepaprastą pažangą: kai kurie, kaip pranešama, pasiekė aukso medalio rezultatus Tarptautinėje matematikos olimpiadoje (IMO), o standartiniuose etalonuose jie dabar išsprendžia uždavinius, kurie daugumai žmonių būtų sunkiai įveikiami. Tačiau „MathNet“ rodo, kad pažanga yra netolygi.

Net GPT-5, geriausias išbandytas modelis, vidutiniškai surinko apie 69,3 % pagal pagrindinį „MathNet“ 6400 uždavinių etaloną, neišsprendęs beveik vieno iš trijų olimpiadų lygio uždavinių. O kai uždaviniuose yra paveiksliukai, našumas gerokai sumažėja visose srityse, atskleidžiant…“ vizualinis samprotavimas yra nuolatinė silpnoji vieta net ir labiausiai pajėgiems modeliams.

Keletas atvirojo kodo modelių surinko 0 % balų spręsdami mongolų kalbos uždavinius, o tai pabrėžia dar vieną aspektą, kuriame dabartinės dirbtinio intelekto sistemos, nepaisant bendro stiprumo, atsilieka. „GPT modeliai yra vienodai geri anglų ir kitomis kalbomis“, – sakė Alshammari. „Tačiau daugelis atvirojo kodo modelių visiškai nesugeba naudoti rečiau pasitaikančių kalbų, tokių kaip mongolų.“

„MathNet“ įvairovė taip pat skirta spręsti gilesnį dirbtinio intelekto modelių matematikos mokymosi apribojimą. Kai mokymo duomenys nukrypsta link anglų ir kinų kalbų uždavinių, modeliai perima siaurą matematinės kultūros dalį. Rumunijos kombinatorikos uždavinys arba Brazilijos skaičių teorijos uždavinys gali nagrinėti tą pačią pagrindinę koncepciją visiškai kitu kampu. Tyrėjai teigia, kad susidūrimas su šiuo diapazonu padaro ir žmones, ir dirbtinio intelekto sistemas geresnius matematinius mąstytojus.

Be problemų sprendimo, „MathNet“ pristato paieškos lyginamąjį testą, kuris klausia, ar modeliai gali atpažinti, kada dvi problemos turi tą pačią pagrindinę matematinę struktūrą – tai galimybė, kuri svarbi tiek dirbtinio intelekto kūrimui, tiek pačiai matematikos bendruomenei. Beveik pasikartojančios problemos per daugelį metų atsirado tikruose IMO egzaminuose, nes ieškant matematinių atitikmenų skirtingose notacijose, kalbose ir… formatų naudojimas yra išties sudėtingas net ir ekspertų žmonių komitetams.

Testuodami aštuonis pažangiausius modelius, tyrėjai nustatė, kad net stipriausi iš pirmo karto nustatė teisingą atitikmenį tik apie 5 % atvejų, o modeliai dažnai struktūriškai nesusijusias problemas įvertino kaip panašesnes nei lygiavertes.

Duomenų rinkinyje taip pat yra paieškos papildytos kartos (retrieval-augmented generation, RAG) etalonas, tikrinantis, ar pateikus modeliui struktūriškai susijusią problemą prieš prašant išspręsti naują, pagerėja našumas. Taip yra, bet tik tada, kai gauta problema yra tikrai aktuali. „DeepSeek-V3.2-Speciale“ pagerino iki 12 procentinių punktų, kai paieška buvo gerai suderinta, o nesusijusi paieška pablogino našumą maždaug 22 % atvejų.

https://mathnet.csail.mit.edu/