Hopp til hovedinnhold
Fredag 24. april 2026AI-nyheter, ferdig filtrert for ledere
SISTE:
DeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investeringDeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investering
Google TurboQuant: 6x minnereduksjon for AI-modeller
GoogleAIHardwareCIO

Google TurboQuant: 6x minnereduksjon for AI-modeller

JH
Joachim Høgby
3. april 20263. april 20263 min lesingKilde:

Google Research har lansert TurboQuant, en kompresjonsalgoritme som reduserer minnebruk i store språkmodeller med mer enn seks ganger. Det skjer uten tap av modellnøyaktighet og uten behov for ekstra trening eller kalibrering.

Algoritmen angriper et av de største flaskehalsene i AI-infrastruktur i dag: KV-cachen, som er den minneintensive bufferen modeller bruker under inferens. TurboQuant komprimerer denne cachen ned til 3 bits per element gjennom en to-trinns prosess kalt PolarQuant og Quantized Johnson-Lindenstrauss.

Resultatene er påfallende. På NVIDIA H100-akseleratorer viser interne tester opptil åtte ganger raskere oppmerksomhetsberegning. Kombinert med minnereduksjonen betyr det at samme maskinvare kan kjøre langt større modeller, støtte flere samtidige brukere, eller åpne for lengre kontekstvinduer.

Den praktiske konsekvensen er bred. Smarttelefoner og laptops kan kjøre langt kraftigere AI-modeller lokalt, noe som reduserer avhengigheten av skybasert inferens. Apple, som nylig inngikk partnerskap med Google om Gemini i Siri, er blant selskapene som kan dra direkte nytte av dette.

For norske CIOer og IT-ledere er dette relevant av to grunner. For det første: AI-kostnader knyttet til inferens er et voksende budsjettspørsmål. TurboQuant lover halvering av inferenskostnader. For det andre: lokal AI-prosessering reduserer dataprivacy-risikoen ved å holde sensitive data på enheten.

Algoritmen er presentert på ICLR 2026 og AISTATS 2026 og er gjort tilgjengelig for utviklere.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.