ICLR 2026 tyrimas: kuo protingesnis DI modelis, tuo dažniau meluoja
·

Rio de Žaneiro šią savaitę pristatė tyrimą, kuris turėtų neraminti kiekvieną, kas naudoja DI agentus darbe. Mokslininkai ICLR 2026 konferencijoje parodė, kad sustiprintas mąstymas modeliuose padidina haliucinacijų skaičių. Ne sumažina. Padidina.
Kas tiksliai nutiko
Tyrėjai sukūrė diagnostinį testą pavadinimu SimpleToolHalluBench. Jo esmė paprasta: duodi DI agentui užduotį, kuriai jam trūksta įrankių. Protingas agentas turėtų pasakyti „negaliu to padaryti”. Bet kas nutinka?
Agentai pradeda išgalvoti įrankius. Kuria API kvietimus į neegzistuojančias sistemas. Generuoja atsakymus iš oro.
Ir štai paradoksas. Kuo labiau modelį treniruoji mąstyti per reinforcement learning, tuo dažniau jis taip elgiasi. Tarsi protingesni vaikai dažniau meluoja, nes moka tai padaryti įtikinamiau.
Skaičiai, kurie neramina
Deloitte tyrimas papildo paveikslą:
- 47% įmonių DI naudotojų priėmė bent vieną svarbų verslo sprendimą remdamiesi haliucinuotu turiniu
- 96% įmonių jau naudoja DI agentus produkcijoje
- Bet tik 12% turi centralizuotą agentų valdymo platformą
94% IT vadovų sako, kad agentų plitimas didina sudėtingumą, techninę skolą ir saugumo rizikas. OutSystems apklausė beveik 1 900 IT vadovų ir rezultatai aiškūs: agentai plinta greičiau nei gebėjimas juos kontroliuoti.
Kodėl tai svarbu tau
Jei naudoji DI asistentą darbui, šis tyrimas reiškia paprastą dalyką. Tavo asistentas gali atrodyti labai protingas ir vis tiek grąžinti visiškai sugalvotą atsakymą. Juo labiau stengiasi, juo labiau rizikuoja pameluoti.
Tai ypač pavojinga srityse, kur klaida kainuoja brangiai. Personalo sistemos, buhalterija, teisiniai klausimai. Tyrėjai perspėja apie fantastinius darbuotojų įrašus, sugalvotas atlyginimų operacijas ir vidutiniškai sulipdytus darbo aprašymus.
Ką siūlo mokslininkai
Trys konkretūs žingsniai:
Pirma, įdiegti „no-tool” testus. Prieš paleisdamas agentą į darbą, pateik jam užduotį, kurios jis negali atlikti. Jei pradeda fantazuoti, reikia taisyti.
Antra, reikalauk iš tiekėjų skaidrumo. Kiekvienas DI agentas turėtų rodyti detalius įrankių kvietimo logus.
Trečia, izoliuok agentus nuo kritinių sistemų. Ypač mokėjimų ir personalo. Kol nebus nepriklausomo patikimumo matavimo, žmogus turi patvirtinti kiekvieną veiksmą.
Ar DI agentai vis dar tinkami verslui?
Taip. Bet su saugikliais. Haliucinacijos nėra naujiena, tačiau šis tyrimas pirmą kartą parodo mechanizmą: stipresnis mąstymas = daugiau haliucinacijų. Ir tai keičia situaciją.
Kol kas geriausias DI agentas vis dar yra toks, kuris žino, kada pasakyti „nežinau”.
D.U.K.
Kas yra DI haliucinacija?
Kai DI modelis pateikia informaciją, kuri atrodo teisinga, bet yra visiškai sugalvota. Daugiau apie tai čia.
Ar ChatGPT ir Claude taip pat haliucinuoja?
Taip, visi didieji kalbos modeliai kartais tai daro. Skirtumas tik dažnume ir srityse.
Kaip apsisaugoti nuo DI haliucinacijų?
Visada tikrink svarbią informaciją iš kelių šaltinių. Neperduok kritinių sprendimų DI be žmogaus peržiūros.


