Google TurboQuant: 6x minnereduksjon for AI-modeller
Google Research har lansert TurboQuant, en kompresjonsalgoritme som reduserer minnebruk i store språkmodeller med mer enn seks ganger. Det skjer uten tap av modellnøyaktighet og uten behov for ekstra trening eller kalibrering.
Algoritmen angriper et av de største flaskehalsene i AI-infrastruktur i dag: KV-cachen, som er den minneintensive bufferen modeller bruker under inferens. TurboQuant komprimerer denne cachen ned til 3 bits per element gjennom en to-trinns prosess kalt PolarQuant og Quantized Johnson-Lindenstrauss.
Resultatene er påfallende. På NVIDIA H100-akseleratorer viser interne tester opptil åtte ganger raskere oppmerksomhetsberegning. Kombinert med minnereduksjonen betyr det at samme maskinvare kan kjøre langt større modeller, støtte flere samtidige brukere, eller åpne for lengre kontekstvinduer.
Den praktiske konsekvensen er bred. Smarttelefoner og laptops kan kjøre langt kraftigere AI-modeller lokalt, noe som reduserer avhengigheten av skybasert inferens. Apple, som nylig inngikk partnerskap med Google om Gemini i Siri, er blant selskapene som kan dra direkte nytte av dette.
For norske CIOer og IT-ledere er dette relevant av to grunner. For det første: AI-kostnader knyttet til inferens er et voksende budsjettspørsmål. TurboQuant lover halvering av inferenskostnader. For det andre: lokal AI-prosessering reduserer dataprivacy-risikoen ved å holde sensitive data på enheten.
Algoritmen er presentert på ICLR 2026 og AISTATS 2026 og er gjort tilgjengelig for utviklere.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.