Post-LLM era prasideda: pasaulio modeliai gali pranokti ChatGPT kartą
·

Washington Post tai pavadino tiesiai: post-LLM era prasideda. Ir tai ne clickbait. Tai tikras pokytis, kurį jau matome.
Pasaulio modeliai (world models) yra nauja DI architektūra, kuri mokosi ne iš teksto, o iš vaizdinių ir fizinių duomenų. Ji simuliuoja realų pasaulį: kaip objektai juda, kaip sąveikauja, kas nutinka kai stumteli puodelį nuo stalo krašto.
Kodėl LLM turi ribas
ChatGPT, Claude, Gemini ir visi kiti didieji kalbos modeliai iš esmės daro vieną dalyką: prognozuoja kitą žodį. Jie tai daro neįtikėtinai gerai. Bet jie nesupranta pasaulio.
Vienas tyrimas tai parodė puikiai. Kalbos modelį apmokė taksi kelionių duomenimis Manhatane. Modelis galėjo nurodyti maršrutus. Bet kai reikėjo apvažiuoti aplinkkeliu, jis visiškai pasimetė. Nes jis nemato gatvių. Jis tik žino žodžius apie gatves.
Pasaulio modeliai veikia kitaip. Jie kuria vidinį pasaulio modelį 3D erdvėje. Supranta fiziką, erdvę, priežasties ir pasekmės ryšius. Tai ką mažas vaikas daro natūraliai, bet ko LLM negali.
Kas jau kuria pasaulio modelius
Sąrašas rimtas. Yann LeCun, Turing premijos laureatas, paliko Meta ir įkūrė AMI Labs. Kompanija pritraukė 1,03 mlrd. dolerių pradinį finansavimą su 3,5 mlrd. vertinimu. Vien tam, kad kurtų pasaulio modelius.
Google DeepMind ir Stanford profesorė Fei-Fei Li su World Labs taip pat aktyviai dirba šioje srityje. OpenAI po Sora uždarymo perskyrė resursus „ilgalaikiam pasaulio simuliacijos tyrimui”. Net Sora uždarymas dabar atrodo ne kaip nesėkmė, o kaip strateginis pasirinkimas.
Balandžio 16 dieną Tencent ir Alibaba tą pačią dieną išleido savo pasaulio modelius. Dvi didžiausios Kinijos tech kompanijos vienu metu. Tai ne sutapimas.
Kur tai bus naudojama
Robotika. Autonominės transporto priemonės. 3D turinio generavimas. Pramoninė simuliacija. Visur, kur reikia suprasti fizinį pasaulį, o ne tik generuoti tekst��.
Google Gemini Robotics-ER 1.6 jau dabar rodo, kuria kryptimi juda DI: nuo teksto supratimo prie pasaulio supratimo.
NVIDIA tam kuria Newton 1.0 fizikos variklį. Lustų gamintojams tai didžiulė galimybė, nes pasaulio modelių apmokymui reikia dar daugiau skaičiavimo galios nei LLM.
Ar ChatGPT mirs?
Ne. Bent jau ne artimiausiu metu. LLM puikiai tinka tekstinėms užduotims ir dar ilgai bus naudojami. Bet pasaulio modeliai atvers sritis, kurių LLM tiesiog negali pasiekti.
Ateityje tikėtina, kad matysime hibridines sistemas: LLM kalba ir mąsto, pasaulio modelis supranta fiziką ir erdvę. Kartu jie bus galingesni nei bet kas, ką turime šiandien.
Post-LLM era nereiškia pabaigos. Ji reiškia naują pradžią. Ir kas nori suprasti, kur DI juda, turi pradėti domėtis pasaulio modeliais jau dabar.


