CIO CISOStyreNVIDIANemotronDiffusion Language ModelsHugging FaceAI InfrastructureInferenceGPUSGLangFinOpsAI GovernanceEnterprise AI

NVIDIA tester diffusion-modeller for raskere AI-tekst

Joachim Høgby

23. mai 202623. mai 20265 min lesingKilde: NVIDIA / Hugging Face

Del

LinkedIn X Facebook E-post WhatsApp Telegram

NVIDIA har lagt ut en ny Nemotron-Labs Diffusion-familie på Hugging Face. Det høres først ut som en forskernotis. Det er mer praktisk enn som så.

Poenget er at språkmodeller ikke alltid må skrive ett token om gangen. Dagens autoregressive modeller er effektive og velkjente, men de har en fysisk flaskehals: hvert nytt token krever en ny modellpassering. Når en bedrift bygger koding, kundeservice, saksbehandling eller interne analyseverktøy på toppen av språkmodeller, blir den flaskehalsen til ventetid, GPU-bruk og kostnad.

Nemotron-Labs Diffusion prøver å angripe akkurat det. Modellene kan generere flere tokens parallelt og deretter raffinere svaret i flere steg. NVIDIA beskriver det som en generate-and-refine-metode. Den gjør det også mulig å justere hvor mye beregning modellen skal bruke underveis. Færre raffineringssteg kan gi lavere kostnad og lavere ventetid, mens flere steg kan brukes der kvaliteten må opp.

Det er en viktig styringsdetalj. Mange AI-prosjekter dør ikke fordi modellen er for dum. De dør fordi økonomien i drift blir for svak. Token for token ser billig ut i en pilot. I produksjon blir forsinkelse, batch-størrelse, GPU-minne og throughput en del av forretningsmodellen.

NVIDIA slipper modeller i 3B, 8B og 14B-skala, både som base- og instruksjonsjusterte varianter. I tillegg kommer en 8B visjon-språkmodell. Tekstmodellene ligger under NVIDIA Nemotron Open Model License, mens VLM-modellen kommer under NVIDIA Source Code License. Selskapet legger også ut treningsoppskrift og kode gjennom Megatron Bridge.

Det mest interessante er ikke bare at modellene er åpne. Det er at samme modell kan brukes på tre måter.

Første modus er vanlig autoregressiv generering. Da oppfører modellen seg som en standard venstre-til-høyre språkmodell.

Andre modus er diffusion. Modellen fyller blokker av tekst ved å raffinere flere tokens i parallelle steg.

Tredje modus er self-speculation. Da bruker modellen diffusion til å foreslå flere tokens, før autoregressiv dekoding verifiserer dem. NVIDIA hevder at dette gir en vei til høyere hastighet uten å bytte applikasjonslogikk.

I blogginnlegget oppgir NVIDIA at Nemotron-Labs Diffusion 8B ligger 1,2 prosentpoeng over Qwen3 8B i gjennomsnittlig nøyaktighet på evaluerte oppgaver. Målt i tokens per forward pass oppgir selskapet 2,6 ganger høyere effektivitet i diffusion-modus enn autoregressive modeller. Self-speculation løfter tallet til 6 ganger i lineær variant og 6,4 ganger i kvadratisk variant, med sammenlignbar nøyaktighet i testene.

Det mest konkrete driftstallet er fra SGLang-integrasjonen. NVIDIA skriver at LinearSpec nådde rundt 865 tokens per sekund på B200 på speedbench-datasettet. Det skal være omtrent fire ganger raskere enn autoregressiv baseline på samme maskinvare ved temperatur 0.

For norske CIO-er og teknologiledere er dette ikke et argument for å kaste ut dagens modeller. Det er et varsel om at modellvalg nå også blir et driftsarkitekturvalg. Når en modell kan kjøres i flere inferensmodi, flyttes beslutningen fra «hvilken modell er best?» til «hvilken modus passer denne arbeidsflyten, denne ventetiden og denne risikoen?»

Koding er et åpenbart bruksområde. Agentiske utviklerverktøy trenger rask respons, men også høy presisjon. En modell som kan foreslå tekst raskt og verifisere før den committer, passer godt inn i arbeidsflyter med pull requests, testkjøring og menneskelig godkjenning.

Kundeservice og dokumentbehandling er en annen. Der kan deler av svaret genereres raskere, men de mest risikable delene må fortsatt kontrolleres. Det er ikke nok å spørre om modellen er billig. Man må vite hvilken genereringsmodus som brukes, hvilke kvalitetsgrenser som er satt, og hvordan feil oppdages før de sendes til kunde eller saksbehandler.

For innkjøp og FinOps betyr dette at benchmarkene må bli mer presise. Pris per million tokens er for grovt. Bedrifter må se på ventetid, tokens per sekund, batch-størrelse, GPU-type, cache-strategi, kvalitet ved lavere inferensbudsjett og hva som skjer når modellen får lov til å raffinere svaret flere ganger.

Det er også en sikkerhetsvinkel. Diffusion og self-speculation gjør genereringen mer kompleks. Det kan være bra for hastighet, men det betyr at logging, evalueringsoppsett og observability må forstå hele genereringsløpet. Hvis en AI-agent gjør et feil grep i et system med penger, kode eller kundeinformasjon, holder det ikke å logge sluttresultatet. Man må kunne forklare hvordan forslaget ble dannet, verifisert og godkjent.

Derfor er Nemotron-Labs Diffusion først og fremst en produksjonssak. Den peker mot en mer moden AI-stakk der hastighet, kostnad og kvalitet kan styres på inferensnivå, ikke bare i modellkortet.

Kilder og medier

Primærkilde: NVIDIA / Hugging Face, «Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models», publisert 23. mai 2026: https://huggingface.co/blog/nvidia/nemotron-labs-diffusion
Modellkolleksjon: https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
Treningsoppskrift og kode: https://github.com/NVIDIA-NeMo/Megatron-Bridge/tree/main/examples/diffusion/recipes/nemotron_labs_diffusion
Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken