,

DeepSeek V4: Kinija grįžta su 1.6 trilijono parametrų modeliu ir kaina, kuri verčia nervintis

·


Lygiai tą pačią dieną, kai Google paskelbė apie 40 mlrd. dolerių investiciją į Anthropic, Kinijos startuolis DeepSeek tyliai išleido kažką, kas gali būti dar svarbiau.

DeepSeek V4. Du modeliai vienu metu.

V4-Pro: 1.6 trilijono parametrų. V4-Flash: 284 mlrd. parametrų. Abu atviro kodo. Abu su milijono tokenų konteksto langu. Abu prieinami nemokamai per API.

Ir abu kainuoja tiek mažai, kad Vakarų kompanijos turėtų rimtai susimąstyti.

Skaičiai, kurie kalba patys

V4-Flash kainuoja 0.14 dolerių už milijoną įvesties tokenų. Palyginimui, GPT-5.5 kainuoja kelis kartus daugiau. Claude Opus dar daugiau. O V4-Flash pasiekia rezultatus, kurie kai kuriuose testuose priartėja prie geriausių uždaro kodo modelių.

V4-Pro yra flagmanas. 49 mlrd. aktyvių parametrų iš 1.6 trilijono bendro skaičiaus. Mixture of Experts architektūra leidžia naudoti tik dalį parametrų kiekvienam užklausimui. Rezultatas: greitis ir efektyvumas, neaukojant kokybės.

Techninė magija

DeepSeek sukūrė naują hibridinę dėmesio sistemą, kuri sumažina skaičiavimo poreikį 73% ir KV cache 90%, lyginant su ankstesniu V3.2 modeliu. Tai reiškia, kad galima paleisti galingą modelį ant gerokai mažesnės infrastruktūros.

Kodavimo testuose V4 lenkia visus atviro kodo modelius. Kinija stato 60 000 lustų superklasterius be JAV technologijų, ir DeepSeek rodo, kad tos investicijos veikia.

Kodėl tai svarbu

Prieš metus DeepSeek V3 sukėlė paniką Silicio slėnyje. V4 gali sukurti dar didesnę.

Pagrindinė priežastis: kaina. Kai kiniškas modelis pasiekia 80-90% geriausių Vakarų modelių kokybės, bet kainuoja 10 kartų mažiau, verslas renkasi pigesni variantą. Ypač tose srityse, kur nebūtina turėti patį geriausią modelį.

DeepSeek neseniai pritraukė pirmą finansavimą: 300 mln. dolerių. OpenAI vertinimas siekia trilijoną. Bet kokybės skirtumas tarp jų modelių mažėja kiekvieną ketvirtį.

DI lenktynės tarp JAV ir Kinijos 2026 metais tampa ne klausimas, kuris modelis geresnis. O kuris pigesnis.

Terminai neaiškūs? Čia rasite DI žodyną su paaiškinimais.

Ar naudojai DeepSeek savo darbe? Įdomu, kaip jis atrodo praktikoje, ne tik testuose.