Google TurboQuant: 6 kartus mažiau atminties DI modeliams be kokybės praradimo

·


Google Research pristatė TurboQuant. Tai kvantavimo algoritmas, kuris suspaudžia didelių kalbos modelių KV cache iki maždaug 3 bitų. Tai 6 kartų suspaudimas. Be jokio tikslumo praradimo. Be jokio papildomo treniravimo.

Technologija derinia du metodus: PolarQuant (polinių koordinačių rotacija) ir QJL (1 bito liekamoji korekcija). Dėmesio greitis auga 8 kartus.

Kodėl tai svarbu

DI modeliai reikalauja milžiniško kiekio atminties. Samsung pelnas šoko dėl HBM lustų paklausos. TurboQuant galėtų tą paklausą sumažinti: jei modelis naudoja 6 kartus mažiau atminties, reikia mažiau lustų.

Atminties lustų akcijos reagavo neigiamai. Logiškai: jei DI modeliai taps efektyvesni, atminties paklausa gali mažėti.

Darbas bus pristatytas ICLR 2026 konferencijoje balandžio 23-27 dienomis. Oficiali implementacija tikimasi Q2 2026.

Efektyvumo revoliucija

JAV investuoja 1,4 trln. į elektros tinklus DI duomenų centrams. Pusė duomenų centrų sustabdyta. Gal sprendimas ne daugiau infrastruktūros, o efektyvesni modeliai.

Gemini 3.1 Ultra turi 2 mln. tokenų kontekstą. Su TurboQuant tas kontekstas kainuos 6 kartus mažiau atminties. Tai keičia žaidimą.