Prašymas dirbtinio intelekto elgtis kaip ekspertui gali sumažinti jo patikimumą

Siekdami kuo geriau išnaudoti dirbtinį intelektą, kai kurie vartotojai liepia jam pateikti atsakymus taip, lyg jis būtų ekspertas. Kiti prašo jo priimti asmenybę, pavyzdžiui, saugos stebėtoją, kuris vadovautų jo atsakymams. Tačiau, remiantis tyrimu, kurį galima rasti „arXiv“ išankstinio spausdinimo serveryje, šis metodas kartais gali pakenkti atsakymų teisingumui.

Norėdami pamatyti, kaip gerai elgiasi dideli kalbos modeliai (LLM), kai jiems liepiama būti kuo nors kitu, Kalifornijos universiteto tyrėjai atliko testą, naudodami 12 skirtingų asmenų šešiuose kalbos modeliuose. Tarp jų buvo tokių sričių kaip matematika, programavimas ir STEM (mokslas, technologijos, inžinerija ir matematika) ekspertai, taip pat bendrų vaidmenų, tokių kaip kūrybinis rašytojas ar saugos stebėtojas, specialistai.

Komanda nustatė, kad asmens pasirinkimas yra tarsi dviašmenis kardas. Nors dėl to dirbtinis intelektas skamba profesionaliau ir yra saugesnis (labiau tikėtina, kad jis laikysis taisyklių ir mažiau generuos žalingą turinį), kartais jis prasčiau prisimena faktus.

Pasak tyrėjų, problema ta, kad kai dirbtinis intelektas yra priverstas įjungti asmenybę, jis pereina į nurodymų vykdymo, o ne žinių paieškos režimą.

Eksperto asmenybės poveikis modeliams, užduotims, detalumui ir išdėstymui. (a) MT-Bench sistemoje eksperto asmenybės padeda 5 iš 8 kategorijų (rašymas, vaidmenų žaidimas, samprotavimas, išgavimas, STEM), o didžiausias padidėjimas pasiekiamas išgavimo (+0,65) ir STEM (+0,60) srityse. (b) MMLU sistemoje visi eksperto asmenybės variantai kenkia tikslumui, o minimali asmenybė kenčia mažiausiai (iš viso: 68,0 %, palyginti su 71,6 % pradiniu lygiu). (c) Speciali „Saugos stebėjimo“ eksperto asmenybė padidina atmetimo rodiklius, o asmenybė pasiekia didžiausią padidėjimą JailbreakBench sistemoje (+17,7 %). (d) Kryžminio modelio eksperto asmenybės poveikis priklauso nuo modelio, išdėstymo ir užduoties. Šaltinis: arXiv (2026). DOI: 10.48550/arxiv.2603.18507

Siekdami išspręsti šias problemas, tyrėjai sukūrė PRISM (asmens nukreipimas per ketinimais pagrįstą savęs modeliavimą, Persona Routing via Intent-based Self-Modeling) – mokymo metodą, kuris moko modelius, kada naudoti asmenybes, o kada ne. Kai kas nors užduoda klausimą, PRISM generuoja atsakymus su asmenybe arba be jos, juos palygina ir tada nusprendžia, kurį pateikti vartotojui.

Mokymo metu PRISM buvo mokoma generuoti du skirtingus atsakymus į kiekvieną užduotį. Vienas atsakymas buvo iš numatytųjų dirbtinio intelekto „smegenų“, o kitas – iš asmenybės. Laikui bėgant, ji tiksliai išmoko, kada eksperto balsas būtų naudingas, o kada – blaškytų dėmesį.

Jei sistema nusprendžia, kad neasmeninis atsakymas yra tikslesnis, eksperto versija nėra išmetama. Vietoj to, tai, ko modelis išmoksta iš šio atsakymo, fiksuojama komponente, vadinamame LoRA adapteriu, leidžiančiu jam vėliau pritaikyti eksperto stiliaus samprotavimus.

PRISM išbandymas

Tyrėjai išbandė PRISM naudodami 12 asmenų, kad pamatytų, kaip jis gali spręsti tokias temas kaip medicina ir teisė. Testuose, kurie rėmėsi neapdorotomis žiniomis, eksperto asmens pridėjimas sumažino DI tikslumą. Tačiau rašymo ir saugos užduotims atlikti asmenys pagerino DI.

Apskritai PRISM padidino bendrą DI balą vienu ar dviem taškais, priklausomai nuo MT-Bench modelio. Šis testas matuoja, kaip gerai DI laikosi nurodymų ir išlaiko naudingą toną.

„PRISM pagerina pirmenybės ir saugumo derinimą generatyvinėse užduotyse, tuo pačiu išsaugant tikslumą diskriminacinėse užduotyse visose išbandytose LLM, o tai yra tvirtas mūsų išvadų įrodymas“, – komentavo komanda savo straipsnyje.

Darbas su PRISM bus tęsiamas, įskaitant bandymus su daugiau asmenų ir dar labiau sumaniai atspėjant, ko reikia vartotojui.

Zizhao Hu et al, Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM, arXiv (2026). DOI: 10.48550/arxiv.2603.18507

Journal information: arXiv

Dirbtinis intelektas paaugliams gali duoti blogų patarimų dėl mitybos

Eksperimentinis dirbtinio intelekto (DI) agentas išsiveržė iš savo testavimo aplinkos ir be leidimo ėmė išgauti kriptovaliutą

„Google“ Europoje skiria 30 mln. dolerių dirbtinio intelekto įgūdžiams ugdyti: mokymai pasieks ir Lietuvą