Google TurboQuant: 6 kartus mažiau atminties DI modeliams be kokybės praradimo
·

Google Research pristatė TurboQuant. Tai kvantavimo algoritmas, kuris suspaudžia didelių kalbos modelių KV cache iki maždaug 3 bitų. Tai 6 kartų suspaudimas. Be jokio tikslumo praradimo. Be jokio papildomo treniravimo.
Technologija derinia du metodus: PolarQuant (polinių koordinačių rotacija) ir QJL (1 bito liekamoji korekcija). Dėmesio greitis auga 8 kartus.
Kodėl tai svarbu
DI modeliai reikalauja milžiniško kiekio atminties. Samsung pelnas šoko dėl HBM lustų paklausos. TurboQuant galėtų tą paklausą sumažinti: jei modelis naudoja 6 kartus mažiau atminties, reikia mažiau lustų.
Atminties lustų akcijos reagavo neigiamai. Logiškai: jei DI modeliai taps efektyvesni, atminties paklausa gali mažėti.
Darbas bus pristatytas ICLR 2026 konferencijoje balandžio 23-27 dienomis. Oficiali implementacija tikimasi Q2 2026.
Efektyvumo revoliucija
JAV investuoja 1,4 trln. į elektros tinklus DI duomenų centrams. Pusė duomenų centrų sustabdyta. Gal sprendimas ne daugiau infrastruktūros, o efektyvesni modeliai.
Gemini 3.1 Ultra turi 2 mln. tokenų kontekstą. Su TurboQuant tas kontekstas kainuos 6 kartus mažiau atminties. Tai keičia žaidimą.


