CIOCTOCISOStyreGoogleGoogle DeepMindGemmaDiffusionGemmaOpen ModelsAI InfrastructureInferenceGPUNVIDIALokal AIAI FinOpsModel RoutingEnterprise AILeverandørstyringRisikostyring

Google tester diffusjonsmodell for raskere lokal AI

Joachim Høgby

11. juni 202611. juni 20264 min lesingKilde: Google

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Google DeepMind lanserer DiffusionGemma, en åpen vektmodell som bruker diffusjonsteknikk for tekst. Målet er ikke å slå de største modellene på ren kvalitet. Målet er raskere tekstgenerering på egnet GPU-maskinvare, særlig i interaktive arbeidsflyter der ventetid er dyrt.

Google sier modellen kan gi opptil fire ganger raskere tekstgenerering på GPU enn tradisjonelle token-for-token-modeller i samme familie. Selskapet oppgir over 1 000 tokens per sekund på én Nvidia H100 og over 700 tokens per sekund på en GeForce RTX 5090. Det er leverandørens egne tall, men de peker på en viktig trend: AI-kost og AI-opplevelse avgjøres ikke bare av modellstørrelse. Arkitektur og inferensmønster blir like viktig.

DiffusionGemma bygger på Gemma 4-familien og er en mixture-of-experts-modell med rundt 26 milliarder totale parametere, men bare om lag 3,8 milliarder aktive parametere per inferens. I stedet for å generere tekst rent sekvensielt, arbeider den med blokker som iterativt renses frem. Google beskriver dette som et skifte fra token-for-token-prosessering til parallell generering av hele tekstblokker.

For norske CTO-er og CIO-er er den mest interessante delen ikke modellnavnet. Det er driftsmodellen. DiffusionGemma er utgitt med Apache 2.0-lisens og tilgjengelige modellvekter. Google skriver også at kvantiserte varianter kan passe innenfor 18 GB VRAM på kraftige forbruker-GPU-er. Det gjør modellen relevant for virksomheter som vurderer lokal eller hybrid AI for kodehjelp, intern dokumentflyt, korte analyseoppgaver eller agentarbeid der data ikke bør sendes til en ekstern API for hvert kall.

Men saken bør ikke leses som at lokal AI plutselig er løst. Google er tydelig på begrensningene. DiffusionGemma har lavere samlet output-kvalitet enn standard Gemma 4. For bruksområder som krever høyest mulig kvalitet, anbefaler Google fortsatt standardmodellen. Hastighetsgevinsten er også mest relevant ved lav til middels batch på én akselerator. Ved høy-QPS skyservering kan gevinsten bli mindre og kostnaden høyere.

Det er nettopp derfor modellen er strategisk interessant. Den viser at AI-markedet deler seg i flere driftsmønstre. Noen arbeidsflyter trenger maksimal resonnering og betaler for dyre frontier-modeller. Andre trenger lav latenstid, kontrollert databehandling og billig nok inferens til at AI kan brukes kontinuerlig. Det siste er viktig for kodeagenter, interne assistenter, søk i dokumentasjon og brukergrensesnitt der hvert sekunds forsinkelse merkes.

For virksomheter med strenge krav til datasuverenitet kan åpne vekter og lokal kjøring være attraktivt. Offentlig sektor, helse, finans og industri kan få bedre kontroll på logging, datatilgang og nettverksgrenser. Samtidig flyttes ansvaret hjem. Virksomheten må selv håndtere sikkerhetspatching, evalueringsregime, tilgangsstyring, misbruksvern, modellmonitorering og kostnad per GPU-time. Å eie modellen betyr ikke automatisk å eie risikoen.

Nvidia og vLLM-miljøet har allerede teknisk støtte rundt modellen. Det gjør den mer praktisk enn en ren forskningslansering. Likevel er dette ikke en generell erstatning for OpenAI, Anthropic eller Googles større kommersielle modeller. Den bør vurderes som en spesialisert byggestein for rask, lokal tekstgenerering der kvalitetsterskelen er kjent og testbar.

Det norske lederpoenget er å unngå en for enkel modellstrategi. Mange AI-planer starter med spørsmålet: hvilken modell skal vi bruke? I 2026 blir spørsmålet bredere: hvilken klasse arbeid skal modellen gjøre, hvor skal inferensen kjøre, hvilke data får den, og hvor mye latenstid tåler brukeren? DiffusionGemma er et eksempel på at svaret kan være forskjellig for koding, kundeservice, saksbehandling og styreanalyse.

For innkjøp og arkitektur betyr dette at API-kontrakter, GPU-kapasitet, modellruting og evalueringsdata må ses samlet. En raskere lokal modell kan senke kostnad og øke kontroll i noen løp. Den kan også gi falsk trygghet hvis den brukes til oppgaver der lavere kvalitet skaper feilbeslutninger. Riktig bruk krever måling mot egne oppgaver, ikke bare leverandørens benchmark.

DiffusionGemma er derfor ikke en ny toppmodell. Det er et tegn på at AI-infrastrukturen blir mer spesialisert. De virksomhetene som klarer å rute arbeid mellom raske lokale modeller, rimelige mellommodeller og tunge frontier-modeller, vil få bedre kostnadskontroll og mindre leverandørlås enn de som sender alt til én modellklasse.

Kilder og medier

Primærkilde: Google, "Introducing DiffusionGemma", 10. juni 2026. Source: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ Kildekreditering: Google. Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

Breaking

CIOCISOAI-sikkerhet

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

NVIDIA, Microsoft og flere partnere starter Open Secure AI Alliance. Målet er åpne verktøy for AI-forsvar, sårbarhetshåndtering og respons på agentangrep.

27. juli 20264 min lesing

NVIDIA Blog

Åpne saken

AI-modellerAgenterOpenAI

OpenAI viser ChatGPT Work som agent for ekte arbeidsflyt

Sam Altman beskriver ChatGPT Work som en agent som bruker historikk, bygger en fullstack-side, koordinerer valg og klargjør Gmail-utkast fra én mobilprompt.

27. juli 20264 min lesing

Sam Altman / OpenAI

Åpne saken

CIOCISOAI-modeller

NVIDIA: Nemotron 3 Ultra slår åpne modeller i chipdesign-koding

NVIDIA hevder Nemotron 3 Ultra gir høyest treffsikkerhet og lavest tokenbruk blant åpne modeller i agentisk RTL-koding. Det peker rett mot flaskehalsen i chipdesign.

27. juli 20265 min lesing

NVIDIA Technical Blog

Åpne saken