Google TurboQuant: 6x minnereduksjon for AI-modeller uten tap av nøyaktighet
Google Research har lansert TurboQuant, en banebrytende komprimeringsalgoritme for store språkmodeller (LLM-er) som reduserer minnebehovet med opptil 6 ganger uten tap av nøyaktighet. Algoritmen presenteres på ICLR 2026 og kan forandre grunnleggende hvordan AI-modeller kjøres i praksis.
TurboQuant komprimerer det såkalte KV-cachen i LLM-er ned til bare 3 bits, sammenlignet med dagens standard på 16–32 bits. På Nvidia H100-GPUer viser benchmarks en opptil 8 ganger raskere beregning av attention-logitter. Det mest oppsiktsvekkende er at dette skjer uten at det kreves ny trening eller finjustering av modellen.
Teknologien fungerer i to trinn. Første trinn, kalt PolarQuant, konverterer datavektorer til polærkoordinater som muliggjør høykvalitetskomprimering. Andre trinn bruker en 1-bit QJL-transformasjon på restfeilen for å eliminere systematisk bias i attention-beregningene.
Google testet TurboQuant på en rekke åpne modeller, inkludert Gemma, Mistral og Llama 3.1, og på benchmarks som LongBench, Needle In A Haystack og RULER. Resultatene viser at TurboQuant matcher eller overgår eksisterende løsninger som KIVI.
Konsekvensene strekker seg langt utover Google selv. Minnekrevende modeller som i dag bare kan kjøres på dyre server-GPUer kan med denne teknologien potensielt kjøres på vanlig forbrukerhardware. Nyheten ble umiddelbart lagt merke til av finansmarkedene: aksjer i minneprodusenter som Micron og SK Hynix falt etter kunngjøringen, da investorer revurderte fremtidig etterspørsel etter AI-minne.
For virksomheter som bruker AI i stor skala representerer TurboQuant en potensiell kostnadsbesparelse. Billigere inferens betyr lavere driftskostnader for alt fra kundestøtte-bots til interne analyse-verktøy.
Algoritmen er åpen tilgjengelig via Google Research, og støtte i populære rammeverk forventes å komme raskt.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.