,

DI modeliai tapo per stiprūs testams: mokslininkai nebesugeba sukurti pakankamai sunkių užduočių

·


Claude Opus 4.6 išsprendžia daugiau nei 80 proc. METR laiko horizonto užduočių. Prieš metus tokia sėkmės norma buvo neįsivaizduojama.

Ir čia problema. Ne todėl, kad modeliai per geri. O todėl, kad nebėra kaip juos testuoti.

Kas yra benchmarkai ir kodėl jie svarbūs

Benchmarkas yra testas DI modeliui. Kaip egzaminas studentui. Duodi užduotį, žiūri, ar atsakė teisingai. Pagal rezultatus spręndi, kuris modelis geresnis.

Bet kai visi studentai gauna šimtukus, egzaminas tampa beprasmis. Ir būtent tai vyksta dabar.

METR tyrėjas LessWrong platformoje perspėjo: mes baigiame benchmarkus. Sukurti naują, pakankamai sunkų testą kainuoja daugiau nei milijoną dolerių. Ir net tas milijoninis testas gali tapti per lengvas per kelis mėnesius.

Kodėl tai pavojinga

Be gerų benchmarkų mes negalime palyginti modelių. O jei negalime palyginti, negalime ir reguliuoti.

Pagalvok apie Anthropic Mythos. Modelis toks galingas, kad Anthropic pati riboja prieigą prie jo. Bet kaip žinoti, ar jis saugus, jei neturi testo, kuris parodo jo ribas?

Reguliuotojai remiasi benchmarkais spręsdami, kurie modeliai reikalauja griežtesnės priežiūros. Jei benchmarkai neveikia, reguliavimas tampa aklas.

Kas bandoma daryti

Kelios kryptys. Pirma: kuriami nauji, brangesni ir sudėtingesni testai, kurie reikalauja ne tik žinių, bet ir ilgalaikio planavimo. Antra: bandoma vertinti modelius ne pagal testo rezultatus, o pagal tai, kaip jie sprendžia realaus pasaulio problemas.

Trečia kryptis yra žmonių vertinimas. Kai ekspertai vertina modelio atsakymus rankiniu būdu. Tai brangu ir lėta, bet patikima.

MiniMax M2.7 jau pats rašo savo kodą. Alibaba Qwen 3.6 Plus turi milijoną tokenų kontekstą. Modeliai tobulėja greičiau, nei mes sugebame juos testuoti.

Ką tu gali daryti

Kai skaitai, kad modelis X pasiekė 95 proc. kokiame nors benchmarke, nebūtinai tai reiškia, kad jis yra 95 proc. tobulas. Gali reikšti, kad testas per lengvas.

Geriau testuok pats. Duok modeliui savo realias užduotis ir žiūrėk, kaip jis susidoroja. Tavo verslo problemos yra geresnis benchmarkas nei bet koks akademinis testas.

DI modeliai jau peržengė ribą, kurioje standartiniai testai turi prasmę. Klausimas dabar ne ar modelis geras, o ar jis geras būtent tau.

Šaltinis: NeuralBuddies