Zyphra ZAYA1-8B sumušė Claude 4.5 Sonnet matematikoje. AMD lustai vietoj NVIDIA ir tik 760 mln aktyvių parametrų
·

Sėdžiu ir žiūriu į benchmark’ų lentelę. HMMT’25 matematikos testas. Claude 4.5 Sonnet 88.3 taško. GPT-5-High irgi tame regione. O viršuje sėdi vardas, kurio anksčiau niekada nemačiau. ZAYA1-8B. 89.6.
Skamba kaip pokštas.
Tik ne. Šią savaitę startuolis Zyphra paskelbė atviro kodo modelį, kuris turi vos 760 milijonų aktyvių parametrų. Kitaip tariant, mažiau nei vienas milijardas. O konkuruoja su modeliais, kurie aktyviai naudoja po 200, 500 ar net trilijoną.
Ir blogiausia konkurentams. Visa šita istorija buvo apmokyta be NVIDIA.
AMD lustai apmokė viską
Zyphra nuėjo į IBM ir paprašė pasistatyti pasirinktinį kompiuterių klasterį. 128 mazgai. Kiekvienas mazgas su 8 AMD Instinct MI300X GPU. Iš viso 1024 lustai. Sujungti per AMD Pollara 400Gbps tinklą.
Tas pats AMD, kurio akcijos balandį nukrito 45%, kai investuotojai pradėjo abejoti dėl DI lustų pakilimo tvarumo. Tas pats AMD, apie kurį dar prieš metus rinkoje šnekėta tonu „kažkada tikrai pavys NVIDIA, bet ne netrukus”.
Tai štai. Pavijo. Bent jau šitam vienam treniravimo bėgyje.
Zyphra apmokė viską nuo nulio. Pretreniravimą. Vidurinį etapą. Prižiūrimą fine-tuning. Visi trys etapai vyko tik ant MI300X. Naudojo 14 trilijonų tokenų ir Muon optimizatorių. Be NVIDIA H100 ar B200. Be CUDA priklausomybės.
Štai kodėl tai svarbu. Pirmą kartą frontier lygio reasoning modelis viešai parodė, kad AMD aparatūra yra ne „atsarginis variantas”, o realus kelias iš naftos lauko, kurį valdo NVIDIA.
Klasteris pasiekia daugiau nei 750 PFLOP’ų realaus treniravimo našumo. Tai konkretus skaičius. Galima skaičiuoti. Galima palyginti. Ir tai pirmas viešai dokumentuotas didelio masto reasoning modelio treniravimas vien ant AMD aparatūros.
Mažas, bet protingas
ZAYA1-8B yra MoE (Mixture of Experts) architektūros modelis. Jei dar nesi susipažinęs su tuo, kas yra MoE, paprastai paaiškinsiu. Vietoj to, kad visi neuronai dirbtų visada, modelis turi daug „specialistų” ir kiekvienam klausimui aktyvuoja tik kelis. 8.4 milijardo parametrų bendrai. 760 milijonų aktyvūs vienam užklausos žingsniui.
Iš pirmo žvilgsnio mažas. Bet kas vyksta benchmark’uose:
- HMMT’25 matematikos olimpiadinis testas. 89.6 taško, daugiau nei Claude 4.5 Sonnet ir GPT-5-High
- APEX-shortlist matematika su 5.5 mln tokenų testavimo laikui. Pranoksta DeepSeek-V3.2
- Reasoning užduotys. Varžosi su DeepSeek-R1-0528 ir Gemini-2.5-Pro
Įsivaizduok, kad pasiimi nedidelį, vietinį kompiuterį, paleidi modelį, ir jis matematikos uždavinius sprendžia geriau nei mokami pirmaujantys modeliai debesyse. Štai kuri pusė istorijos sukėlė ažiotažą.
Visas modelio dizaino tikslas, kaip pati Zyphra įvardina, yra „intelekto tankis vienam parametrui”. Kuo mažiau parametrų, tuo daugiau realaus mąstymo galios iš jų išspaudžia. MoE++ architektūros pakeitimai, kuriuos jie pristatė, yra trys konkretūs ir techniniai, bet praktinė išvada paprasta. Mažesnis modelis gali būti protingesnis, jei treniravimo metodika gera.
Markovian RSA gudrus posūkis
ZAYA1 stiprybė ne tik architektūroje, bet ir tame, kaip jis galvoja testuodamas sprendimą. Zyphra pristatė metodą, vadinamą Markovian RSA. Jis leidžia modeliui efektyviau išleisti „mąstymo” tokenus, t.y. kiek skaičiavimo resursų skirti vienai užklausai.
Praktiškai tai reiškia. Užduodi sudėtingą uždavinį, modelis pats nusprendžia, kiek laiko jam atiduoti. Paprastam klausimui sekundžių. Sudėtingam matematikos uždaviniui minučių. Ir rezultatai kaip pas didelius brolius.
Tai pati idėja, kuri jau pakeitė kaip dirba agentinis DI. Kuo daugiau galvojimo laiko, tuo geresnis atsakymas. Tik dabar tas mechanizmas atvirai prieinamas mažose vietinėse sistemose.
Apache 2.0 pasiimk ir naudok
Modelis paskelbtas Hugging Face po Apache 2.0 licencija. Tai reiškia. Nori, diegi savo serveryje. Nori, embed’ini į produktą. Nori, kuri komercinį servisą.
Be klausimų. Be mokesčių. Be slidaus juridinio teksto.
Štai kas keičia žaidimo taisykles startuoliams ir mažoms įmonėms. Iki šiol toks reasoning lygis reiškė arba mokėjimą Anthropic/OpenAI per API, arba milijardų infrastruktūrą savo pačių bazei. Dabar atsisiunti modelį, paleidi vietoje, ir gauni panašų rezultatą bent jau matematikos klausimuose.
Šitas niuansas svarbus. Niekas nesako, kad ZAYA1 universalus pakaitalas Claude ar GPT modeliams. Bendro pobūdžio pokalbiams ir kūrybiniam darbui jis nėra geriausias. Bet matematinės užduotys, kodas, struktūruoti samprotavimai. Tai sritys, kur jis spindi.
Ką tai reiškia AMD ir NVIDIA karui
Šitas momentas atrodo kaip atsakymas į klausimą, kurį pati rinka uždavinėjo balandį. Ar AMD turi realią vietą frontier DI rinkoje, ar lieka tik antraplaniu žaidėju serveryne?
Atsakymas dabar konkretesnis. ZAYA1 buvo treniruotas nuo pradžios iki pabaigos ant MI300X klasterio. Anthropic jau įsipareigojo 200 milijardų dolerių Google TPU, ne NVIDIA. Meta atskleidė savo MTIA lustų generacijas. Ir dabar mažas startuolis parodo, kad galima pasiekti frontier rezultatus su AMD.
NVIDIA tikriausiai nemiega prastai dėl šio vieno modelio. Bet tendencija aiškėja. Rinka nebenori vieno tiekėjo monopolio. Ir jei vienam mažam modelio bandymui pavyko, didžiesiems klientams tas signalas reiškia daug.
Ką darysi tu
Jei vadovauji startuoliui ar SMĮ, šita istorija turėtų tave dominti dėl trijų dalykų. Pirmas, frontier reasoning modeliai jau ne vien debesyse. Antras, atviras kodas spartėja, ne lėtėja. Trečias, vietinis modelis, kurį valdai pats, gali būti pigesnis ir saugesnis nei mokama API per ilgesnį laikotarpį.
Pasiimk lapą. Užsirašyk savo dabartines DI sąskaitas. Pažiūrėk, ką iš jų galėtum perkelti į vietinį 8B modelį. Spėk, kiek atrastum sutaupymo per metus.
O kol galvoji, Anthropic Claude jau pradeda „svajoti”, mokytis iš savo klaidų be žmogaus pagalbos. Žaidimas keičiasi greičiau, nei spėjame perskaityti naujienas.


