Googles TurboQuant-algoritme kutter AI-minnebruk med 6x og kostnader med 50%
Google Research har lansert TurboQuant, en ny algoritme-suite som løser et av de største flaskehalsene i moderne AI: KV-cache-minneforbruket i store språkmodeller.
TurboQuant er en to-trinns, treningsfri kompresjonspipeline som kan brukes på enhver transformer-arkitektur uten finjustering eller kalibrering. Den kombinerer to teknikker: PolarQuant, som konverterer høydimensjonale vektorer til polarkoordinater for å eliminere normaliseringsbehov, og Quantized Johnson-Lindenstrauss (QJL), som komprimerer residualfeil med bare 1 bit.
Resultatet er imponerende: gjennomsnittlig 6x reduksjon i KV-cache-minnebruk, 8x ytelsesøkning i oppmerksomhetsberegninger, og potensielt over 50% kostnadsreduksjon for bedrifter som implementerer det. Algoritmen gjør det mulig for LLM-er å støtte vesentlig lengre kontekstvinduer på eksisterende maskinvare.
TurboQuant er tilgjengelig som åpen forskning, inkludert for kommersiell bruk. Forskningen presenteres på ICLR 2026 i Rio de Janeiro og AISTATS 2026 i Tangier.
Nyheten har allerede påvirket finansmarkedene, med fall i minnebrikke-aksjer som Samsung og Micron, ettersom algoritmisk effektivitet kan dempe etterspørselen etter fysisk minne i AI-infrastruktur.
Kilder: VentureBeat, Google Research Blog, PCGamer, Times of India
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.