GoogleAILLMInfrastrukturCIO

Google TurboQuant: 6x minnereduksjon for AI-modeller uten tap av nøyaktighet

Joachim Høgby

26. mars 202626. mars 20264 min lesingKilde:

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Google Research har lansert TurboQuant, en banebrytende komprimeringsalgoritme for store språkmodeller (LLM-er) som reduserer minnebehovet med opptil 6 ganger uten tap av nøyaktighet. Algoritmen presenteres på ICLR 2026 og kan forandre grunnleggende hvordan AI-modeller kjøres i praksis.

TurboQuant komprimerer det såkalte KV-cachen i LLM-er ned til bare 3 bits, sammenlignet med dagens standard på 16–32 bits. På Nvidia H100-GPUer viser benchmarks en opptil 8 ganger raskere beregning av attention-logitter. Det mest oppsiktsvekkende er at dette skjer uten at det kreves ny trening eller finjustering av modellen.

Teknologien fungerer i to trinn. Første trinn, kalt PolarQuant, konverterer datavektorer til polærkoordinater som muliggjør høykvalitetskomprimering. Andre trinn bruker en 1-bit QJL-transformasjon på restfeilen for å eliminere systematisk bias i attention-beregningene.

Google testet TurboQuant på en rekke åpne modeller, inkludert Gemma, Mistral og Llama 3.1, og på benchmarks som LongBench, Needle In A Haystack og RULER. Resultatene viser at TurboQuant matcher eller overgår eksisterende løsninger som KIVI.

Konsekvensene strekker seg langt utover Google selv. Minnekrevende modeller som i dag bare kan kjøres på dyre server-GPUer kan med denne teknologien potensielt kjøres på vanlig forbrukerhardware. Nyheten ble umiddelbart lagt merke til av finansmarkedene: aksjer i minneprodusenter som Micron og SK Hynix falt etter kunngjøringen, da investorer revurderte fremtidig etterspørsel etter AI-minne.

For virksomheter som bruker AI i stor skala representerer TurboQuant en potensiell kostnadsbesparelse. Billigere inferens betyr lavere driftskostnader for alt fra kundestøtte-bots til interne analyse-verktøy.

Algoritmen er åpen tilgjengelig via Google Research, og støtte i populære rammeverk forventes å komme raskt.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

GoogleGeminiProduct update

Google TurboQuant: 6x minnereduksjon for AI-modeller uten tap av nøyaktighet

Relaterte saker

Google gives Gemini interactive simulations and 3D models

Google gir Gemini interaktive simuleringer og 3D-modeller

Google adds crisis and mental health safeguards to Gemini