NVIDIA vil kutte kostnaden i lange AI-agenter
NVIDIA gjør et tydelig trekk mot den delen av AI-markedet som nå blir dyr og krevende: lange agentløp. Selskapet har sluppet Nemotron 3 Ultra, en åpen modell bygget for agenter som planlegger, bruker verktøy, holder kontekst over mange steg og kjører arbeid som ikke passer i ett chat-svar.
Det høres teknisk ut. For CIO-er og CISO-er er poenget enkelt: agentisk AI flytter kostnaden fra enkeltprompter til lange arbeidsflyter. En agent leser, planlegger, kaller verktøy, sender oppgaver videre til underagenter, mottar svar, vurderer kvalitet og prøver igjen. Hver runde bygger tokenforbruk, latency og risiko for at oppgaven sklir ut.
Nemotron 3 Ultra er NVIDIA sitt svar på den flaskehalsen. Modellen er en Mixture-of-Experts-modell med 550 milliarder parametere, men bare 55 milliarder aktive parametere per kall. Den er laget for orkestrering og dypere resonnering i agentiske systemer, ikke bare for korte samtaler.
NVIDIA hevder at modellen gir opptil fem ganger høyere gjennomstrømning enn andre åpne modeller i samme klasse. Selskapet sier også at agentiske oppgaver kan få opptil 30 prosent lavere kostnad til ferdig oppgave, målt i eksperimenter på SWE-bench og Terminal-Bench 2.0. Det er her saken blir relevant for virksomheter som allerede har gått fra pilot til faktisk bruk.
AI-agenter blir ikke billige fordi én modell er rask. De blir billigere hvis arkitekturen bruker riktig modell til riktig oppgave. NVIDIA beskriver en modellportefølje der en kraftigere modell tar planlegging, vanskelige valg og koordinering, mens mindre modeller tar høyvolumoppgaver som validering, verktøykall og enkel generering. Det er samme prinsipp som moderne IT-drift: ikke bruk stormaskinen til alt.
Teknisk bygger Nemotron 3 Ultra på flere grep som peker mot enterprise-bruk. Hybrid Mamba-transformer-lag skal håndtere lang kontekst mer effektivt. NVFP4-kvantifisering gjør at samme checkpoint kan kjøre på Hopper-, Blackwell- og Ampere-GPUer. NVIDIA sier NVFP4 kan gi opptil fem ganger høyere throughput per GPU på Blackwell sammenlignet med BF16 ved samme interaktivitet.
Modellen har også LatentMoE for ekspertruting og multi-token prediction for raskere generering av lange svar og flertrinnsarbeid. Den er trent videre for agentarbeid med NVIDIA NeMo RL og åpne gym-miljøer, med oppgaver der agenter planlegger, leser observasjoner, delegerer, validerer og henter seg inn etter feil.
NVIDIA slipper mer enn bare modellvekter. Selskapet peker på åpenhet i data og treningsoppsett som et salgsargument for enterprise og suveren AI. Nemotron 3 Ultra bygger på en pretraining-base på 10 billioner tokens og får i tillegg 212 milliarder nye tokens rettet mot juridiske data, Wiki-baserte syntetiske data og oppdaterte GitHub-data frem til 30. september 2025.
For norske virksomheter er dette viktig av to grunner. Først: åpne vekter, oppskrifter og dataspor gir bedre grunnlag for risikovurdering enn en ren svart boks. Det betyr ikke at modellen automatisk er trygg. Men den kan testes, finjusteres og kjøres i mer kontrollerte miljøer.
Deretter: agentkostnad blir en styringssak. Mange AI-prosjekter har startet med pris per bruker eller pris per prompt. Lange agenter gjør regnestykket mer brutalt. En feil designet agent kan bruke mange runder på en enkel oppgave, dra med seg unødvendig historikk og kalle dyre modeller når små hadde holdt.
Nemotron 3 Ultra passer derfor inn i AI FinOps. CIO må vite hvilke agentløp som går i produksjon, hvilke modeller de bruker, hvor mye kontekst de sender, hvilke verktøy de får kalle og hva en ferdig oppgave faktisk koster. Det er ikke nok å telle tokens i etterkant. Kostnaden må bygges inn i arkitekturen.
CISO-siden er like viktig. NVIDIA knytter lanseringen til sikre agentmiljøer, blant annet NemoClaw og OpenShell. Poenget er at autonome agenter og generert kode må kjøre i avgrensede runtime-miljøer. Når en agent kan lese repoer, kjøre tester, bruke terminal og foreslå endringer, er sandkasse, logging og rettighetsstyring ikke ekstrautstyr. Det er grunnmuren.
NVIDIA slipper samtidig Nemotron 3.5 Content Safety, en åpen 4B-modell for guardrails på tekst, bilder og kombinerte input. Den dekker 23 sikkerhetskategorier og 12 språk, og kan brukes som kontroll ved inferens, dommer i sikkerhetstesting eller som datasett for videre trening. Det er nyttig for selskaper som vil bygge egne policyer i stedet for å lene seg blindt på én leverandørs standardfilter.
Selskapet slipper også Nemotron 3.5 ASR for taleagenter, med støtte for mer enn 40 språk og mål om forsinkelse under 100 millisekunder. Det plasserer Nemotron-serien bredere enn bare tekstmodeller. NVIDIA posisjonerer seg som infrastrukturleverandør for agentstakker: modeller, runtime, guardrails, tale og NIM-mikrotjenester.
Distribusjonen er bred. Nemotron 3 Ultra tilbys via blant annet Hugging Face, NVIDIA NIM, build.nvidia.com, OpenRouter, Anaconda, AWS JumpStart, Google Cloud, Microsoft Foundry, CoreWeave, Together AI, Fireworks AI og flere andre. Det gjør modellen enklere å teste uten å låse seg til én sky fra dag én.
Det betyr ikke at alle bør løpe etter modellen i morgen. Benchmark-tabeller fra leverandører må alltid testes i egne arbeidsflyter. Men retningen er klar: konkurransen flytter seg fra «hvilken chatbot svarer best» til «hvilken agentarkitektur løser oppgaven billigst, raskest og tryggest».
For styret er saken derfor ikke en modellnyhet. Det er et tegn på at AI-agenter blir driftsinfrastruktur. Når agentene skal kjøre timer, lese interne data og bruke verktøy på vegne av ansatte, må virksomheten ha samme disiplin som for annen kritisk programvare: arkitekturvalg, kostkontroll, tilgangsstyring, logging, leverandørvurdering og exit-plan.
NVIDIA selger naturligvis sin egen stabel. Men lanseringen peker på et reelt skifte. Neste bølge enterprise-AI blir ikke vunnet av den største enkeltsamtalen. Den blir vunnet av systemer som kan holde lange arbeidsløp under kontroll uten at kostnad, sikkerhet eller kvalitet ryker på første sving.
Kilder og medier
Primærkilde: NVIDIA Technical Blog, "NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents", publisert 4. juni 2026. https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/
Kildekreditering: NVIDIA Technical Blog.
Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.