Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

Anthropic: AI fant over 10.000 alvorlige sårbarheter • Reuters: AI-feil i retten gir advokater karriererisiko • CNBC: GitHub svikter under presset fra AI-koding

NVIDIA tester diffusion-modeller for raskere AI-tekst
CIOCISOStyreNVIDIANemotronDiffusion Language ModelsHugging FaceAI InfrastructureInferenceGPUSGLangFinOpsAI GovernanceEnterprise AI

NVIDIA tester diffusion-modeller for raskere AI-tekst

JH
Joachim Høgby
23. mai 202623. mai 20265 min lesingKilde: NVIDIA / Hugging Face

NVIDIA har lagt ut en ny Nemotron-Labs Diffusion-familie på Hugging Face. Det høres først ut som en forskernotis. Det er mer praktisk enn som så.

Poenget er at språkmodeller ikke alltid må skrive ett token om gangen. Dagens autoregressive modeller er effektive og velkjente, men de har en fysisk flaskehals: hvert nytt token krever en ny modellpassering. Når en bedrift bygger koding, kundeservice, saksbehandling eller interne analyseverktøy på toppen av språkmodeller, blir den flaskehalsen til ventetid, GPU-bruk og kostnad.

Nemotron-Labs Diffusion prøver å angripe akkurat det. Modellene kan generere flere tokens parallelt og deretter raffinere svaret i flere steg. NVIDIA beskriver det som en generate-and-refine-metode. Den gjør det også mulig å justere hvor mye beregning modellen skal bruke underveis. Færre raffineringssteg kan gi lavere kostnad og lavere ventetid, mens flere steg kan brukes der kvaliteten må opp.

Det er en viktig styringsdetalj. Mange AI-prosjekter dør ikke fordi modellen er for dum. De dør fordi økonomien i drift blir for svak. Token for token ser billig ut i en pilot. I produksjon blir forsinkelse, batch-størrelse, GPU-minne og throughput en del av forretningsmodellen.

NVIDIA slipper modeller i 3B, 8B og 14B-skala, både som base- og instruksjonsjusterte varianter. I tillegg kommer en 8B visjon-språkmodell. Tekstmodellene ligger under NVIDIA Nemotron Open Model License, mens VLM-modellen kommer under NVIDIA Source Code License. Selskapet legger også ut treningsoppskrift og kode gjennom Megatron Bridge.

Det mest interessante er ikke bare at modellene er åpne. Det er at samme modell kan brukes på tre måter.

Første modus er vanlig autoregressiv generering. Da oppfører modellen seg som en standard venstre-til-høyre språkmodell.

Andre modus er diffusion. Modellen fyller blokker av tekst ved å raffinere flere tokens i parallelle steg.

Tredje modus er self-speculation. Da bruker modellen diffusion til å foreslå flere tokens, før autoregressiv dekoding verifiserer dem. NVIDIA hevder at dette gir en vei til høyere hastighet uten å bytte applikasjonslogikk.

I blogginnlegget oppgir NVIDIA at Nemotron-Labs Diffusion 8B ligger 1,2 prosentpoeng over Qwen3 8B i gjennomsnittlig nøyaktighet på evaluerte oppgaver. Målt i tokens per forward pass oppgir selskapet 2,6 ganger høyere effektivitet i diffusion-modus enn autoregressive modeller. Self-speculation løfter tallet til 6 ganger i lineær variant og 6,4 ganger i kvadratisk variant, med sammenlignbar nøyaktighet i testene.

Det mest konkrete driftstallet er fra SGLang-integrasjonen. NVIDIA skriver at LinearSpec nådde rundt 865 tokens per sekund på B200 på speedbench-datasettet. Det skal være omtrent fire ganger raskere enn autoregressiv baseline på samme maskinvare ved temperatur 0.

For norske CIO-er og teknologiledere er dette ikke et argument for å kaste ut dagens modeller. Det er et varsel om at modellvalg nå også blir et driftsarkitekturvalg. Når en modell kan kjøres i flere inferensmodi, flyttes beslutningen fra «hvilken modell er best?» til «hvilken modus passer denne arbeidsflyten, denne ventetiden og denne risikoen?»

Koding er et åpenbart bruksområde. Agentiske utviklerverktøy trenger rask respons, men også høy presisjon. En modell som kan foreslå tekst raskt og verifisere før den committer, passer godt inn i arbeidsflyter med pull requests, testkjøring og menneskelig godkjenning.

Kundeservice og dokumentbehandling er en annen. Der kan deler av svaret genereres raskere, men de mest risikable delene må fortsatt kontrolleres. Det er ikke nok å spørre om modellen er billig. Man må vite hvilken genereringsmodus som brukes, hvilke kvalitetsgrenser som er satt, og hvordan feil oppdages før de sendes til kunde eller saksbehandler.

For innkjøp og FinOps betyr dette at benchmarkene må bli mer presise. Pris per million tokens er for grovt. Bedrifter må se på ventetid, tokens per sekund, batch-størrelse, GPU-type, cache-strategi, kvalitet ved lavere inferensbudsjett og hva som skjer når modellen får lov til å raffinere svaret flere ganger.

Det er også en sikkerhetsvinkel. Diffusion og self-speculation gjør genereringen mer kompleks. Det kan være bra for hastighet, men det betyr at logging, evalueringsoppsett og observability må forstå hele genereringsløpet. Hvis en AI-agent gjør et feil grep i et system med penger, kode eller kundeinformasjon, holder det ikke å logge sluttresultatet. Man må kunne forklare hvordan forslaget ble dannet, verifisert og godkjent.

Derfor er Nemotron-Labs Diffusion først og fremst en produksjonssak. Den peker mot en mer moden AI-stakk der hastighet, kostnad og kvalitet kan styres på inferensnivå, ikke bare i modellkortet.

Kilder og medier

  • Primærkilde: NVIDIA / Hugging Face, «Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models», publisert 23. mai 2026: https://huggingface.co/blog/nvidia/nemotron-labs-diffusion
  • Modellkolleksjon: https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
  • Treningsoppskrift og kode: https://github.com/NVIDIA-NeMo/Megatron-Bridge/tree/main/examples/diffusion/recipes/nemotron_labs_diffusion
  • Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.