Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

Ivanti-feil gir root før helgens patchfrist • USA tvinger Anthropic til å stenge Fable og Mythos • LangGraph-feil kan gi full kontroll over selvhostede AI-agenter • Agentjacking gjør feillogger til angrep mot kodeagenter • Google går til sak mot AI-drevet svindelnettverk

Google tester diffusjonsmodell for raskere lokal AI
CIOCTOCISOStyreGoogleGoogle DeepMindGemmaDiffusionGemmaOpen ModelsAI InfrastructureInferenceGPUNVIDIALokal AIAI FinOpsModel RoutingEnterprise AILeverandørstyringRisikostyring

Google tester diffusjonsmodell for raskere lokal AI

JH
Joachim Høgby
11. juni 202611. juni 20264 min lesingKilde: Google

Google DeepMind lanserer DiffusionGemma, en åpen vektmodell som bruker diffusjonsteknikk for tekst. Målet er ikke å slå de største modellene på ren kvalitet. Målet er raskere tekstgenerering på egnet GPU-maskinvare, særlig i interaktive arbeidsflyter der ventetid er dyrt.

Google sier modellen kan gi opptil fire ganger raskere tekstgenerering på GPU enn tradisjonelle token-for-token-modeller i samme familie. Selskapet oppgir over 1 000 tokens per sekund på én Nvidia H100 og over 700 tokens per sekund på en GeForce RTX 5090. Det er leverandørens egne tall, men de peker på en viktig trend: AI-kost og AI-opplevelse avgjøres ikke bare av modellstørrelse. Arkitektur og inferensmønster blir like viktig.

DiffusionGemma bygger på Gemma 4-familien og er en mixture-of-experts-modell med rundt 26 milliarder totale parametere, men bare om lag 3,8 milliarder aktive parametere per inferens. I stedet for å generere tekst rent sekvensielt, arbeider den med blokker som iterativt renses frem. Google beskriver dette som et skifte fra token-for-token-prosessering til parallell generering av hele tekstblokker.

For norske CTO-er og CIO-er er den mest interessante delen ikke modellnavnet. Det er driftsmodellen. DiffusionGemma er utgitt med Apache 2.0-lisens og tilgjengelige modellvekter. Google skriver også at kvantiserte varianter kan passe innenfor 18 GB VRAM på kraftige forbruker-GPU-er. Det gjør modellen relevant for virksomheter som vurderer lokal eller hybrid AI for kodehjelp, intern dokumentflyt, korte analyseoppgaver eller agentarbeid der data ikke bør sendes til en ekstern API for hvert kall.

Men saken bør ikke leses som at lokal AI plutselig er løst. Google er tydelig på begrensningene. DiffusionGemma har lavere samlet output-kvalitet enn standard Gemma 4. For bruksområder som krever høyest mulig kvalitet, anbefaler Google fortsatt standardmodellen. Hastighetsgevinsten er også mest relevant ved lav til middels batch på én akselerator. Ved høy-QPS skyservering kan gevinsten bli mindre og kostnaden høyere.

Det er nettopp derfor modellen er strategisk interessant. Den viser at AI-markedet deler seg i flere driftsmønstre. Noen arbeidsflyter trenger maksimal resonnering og betaler for dyre frontier-modeller. Andre trenger lav latenstid, kontrollert databehandling og billig nok inferens til at AI kan brukes kontinuerlig. Det siste er viktig for kodeagenter, interne assistenter, søk i dokumentasjon og brukergrensesnitt der hvert sekunds forsinkelse merkes.

For virksomheter med strenge krav til datasuverenitet kan åpne vekter og lokal kjøring være attraktivt. Offentlig sektor, helse, finans og industri kan få bedre kontroll på logging, datatilgang og nettverksgrenser. Samtidig flyttes ansvaret hjem. Virksomheten må selv håndtere sikkerhetspatching, evalueringsregime, tilgangsstyring, misbruksvern, modellmonitorering og kostnad per GPU-time. Å eie modellen betyr ikke automatisk å eie risikoen.

Nvidia og vLLM-miljøet har allerede teknisk støtte rundt modellen. Det gjør den mer praktisk enn en ren forskningslansering. Likevel er dette ikke en generell erstatning for OpenAI, Anthropic eller Googles større kommersielle modeller. Den bør vurderes som en spesialisert byggestein for rask, lokal tekstgenerering der kvalitetsterskelen er kjent og testbar.

Det norske lederpoenget er å unngå en for enkel modellstrategi. Mange AI-planer starter med spørsmålet: hvilken modell skal vi bruke? I 2026 blir spørsmålet bredere: hvilken klasse arbeid skal modellen gjøre, hvor skal inferensen kjøre, hvilke data får den, og hvor mye latenstid tåler brukeren? DiffusionGemma er et eksempel på at svaret kan være forskjellig for koding, kundeservice, saksbehandling og styreanalyse.

For innkjøp og arkitektur betyr dette at API-kontrakter, GPU-kapasitet, modellruting og evalueringsdata må ses samlet. En raskere lokal modell kan senke kostnad og øke kontroll i noen løp. Den kan også gi falsk trygghet hvis den brukes til oppgaver der lavere kvalitet skaper feilbeslutninger. Riktig bruk krever måling mot egne oppgaver, ikke bare leverandørens benchmark.

DiffusionGemma er derfor ikke en ny toppmodell. Det er et tegn på at AI-infrastrukturen blir mer spesialisert. De virksomhetene som klarer å rute arbeid mellom raske lokale modeller, rimelige mellommodeller og tunge frontier-modeller, vil få bedre kostnadskontroll og mindre leverandørlås enn de som sender alt til én modellklasse.

Kilder og medier

Primærkilde: Google, "Introducing DiffusionGemma", 10. juni 2026. Source: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ Kildekreditering: Google. Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.