Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

Beijing tvinger Meta til å reversere Manus-kjøp • Amazon-varsel forklarer Anthropic-sperren • Google kan holdes ansvarlig for AI-svar i søk • OpenAI møter ny gransking fra delstatsadvokater • Ivanti-feil gir root før helgens patchfrist

NVIDIA måler AI-agenter per megawatt
CIOCTOCFOCISOStyreNVIDIABlackwellGB300 NVL72AgentPerfArtificial AnalysisAI AgentsAgentic AIAI InfrastructureInferenceAI FinOpsDatasenterEnergiRegnekraftLeverandørstyringAI Strategi

NVIDIA måler AI-agenter per megawatt

JH
Joachim Høgby
14. juni 202614. juni 20264 min lesingKilde: NVIDIA

NVIDIA løfter frem en ny type målestokk for AI-infrastruktur: hvor mange samtidige AI-agentoppgaver et system kan kjøre per megawatt. Det høres smalt ut. Det er det ikke. Hvis agentbruk flyttes fra pilot til produksjon, blir dette raskt et spørsmål om kapasitet, strøm, ventetid og kostnad.

Selskapet viser til AgentPerf fra Artificial Analysis, omtalt som den første agentiske AI-benchmarken for infrastruktur. I første runde hevder NVIDIA at GB300 NVL72, selskapets Blackwell Ultra-rack, kjører opptil 20 ganger flere agenter per megawatt enn en NVIDIA HGX H200-konfigurasjon på samme type arbeidslast. Resultatet er publisert av NVIDIA og må leses som leverandørdata, men retningen er viktig uansett: vanlige inferensmålinger passer dårlig når arbeidslasten ikke lenger er ett spørsmål og ett svar.

Den praktiske forskjellen er stor. En chatforespørsel er ofte én modellkallkjede med et svar. En agentoppgave kan bestå av titalls eller hundretalls modellkall, filoppslag, kodeendringer, kompilering, databaseoppslag og venting mellom trinn. Konteksten vokser underveis. Feil må rettes. Nye verktøykall må gjøres. Det betyr at infrastruktur for agenter må måles på mer enn rå tokenhastighet.

AgentPerf forsøker å måle nettopp dette. Ifølge NVIDIA bygger benchmarken på reelle kodeagentløp fra offentlige kodebaser på tvers av mer enn tolv programmeringsspråk. En agent får en oppgave, leser filer, skriver og endrer kode, kjører kommandoer og itererer på resultatet. Selve verktøykallene kjøres ikke i testen, men simuleres med representativ CPU-tid. Poenget er å isolere hva den akselererte AI-infrastrukturen tåler når mange slike agentløp skjer samtidig.

Fra tokenpris til agentkapasitet

For ledere er dette et nytt kostnadsspråk. De siste årene har mye av AI-regningen vært diskutert som pris per million tokens, modellvalg og lisensnivå. Agentarbeid gjør bildet mer komplisert. En agent som bruker ti minutter på å løse en oppgave kan konsumere mange modellkall, lang kontekst og flere verktøy. Den kan også holde infrastruktur opptatt lenger enn en vanlig chat.

Da blir spørsmålet ikke bare hvilken modell som er billigst. Spørsmålet blir hvor mange nyttige oppgaver virksomheten får gjennom systemet per krone, per watt og per tidsenhet. Det er en annen styringsmodell enn klassisk SaaS-innkjøp. En bedrift som ruller ut kodeagenter, saksbehandlingsagenter eller kundeserviceagenter i stor skala må forstå kø, samtidighet og energibruk på samme måte som man i dag forstår skyforbruk, databasekapasitet og nettverk.

Dette treffer spesielt CIO og CFO. Agentene kan gi produktivitetsgevinst, men de flytter også kostnad fra mennesker og manuelle prosesser til infrastruktur og modellkall. Hvis målingen er svak, kan gevinstregnestykket se pent ut i pilot og ryke i produksjon. Det skjer når hundre brukere blir til ti tusen, eller når én enkel agentflyt blir til mange avhengige prosesser som kjører hele dagen.

Benchmarken er også et varsel om lock-in

NVIDIA peker på full-stack-optimalisering som årsak til ytelsen: rackskala med 72 GPU-er, rask sammenkobling, CUDA-optimaliseringer og TensorRT LLM som skiller inputbehandling fra tokengenerering. Det er teknisk relevant. Det er også strategisk relevant. Når agentytelse måles på hele stakken, fra modell og runtime til nettverk og strøm, blir leverandørvalget tyngre.

For virksomheter betyr det at agentplattform ikke bare er et applikasjonsvalg. Det blir et infrastrukturlag. Man må vurdere hvor flyttbar agentarbeidslasten er, hvilke modeller og verktøy den avhenger av, og om kostnadsbildet fungerer på flere leverandører. Hvis ytelsen bare er god på én bestemt kombinasjon av GPU, inference-stack og modell, er det et innkjøpssignal. Ikke nødvendigvis et nei, men definitivt et punkt for arkitektur- og risikoarbeidet.

Det gjelder også europeiske og norske selskaper som ikke skal bygge egne AI-fabrikker. De fleste vil kjøpe kapasitet gjennom skyleverandører, inference-plattformer eller fagsystemer. Likevel vil de indirekte betale for samme flaskehals: hvor effektivt leverandøren kan kjøre agentoppgaver. Når leverandøren sier at agentfunksjoner er inkludert, bør innkjøper spørre om samtidighet, responstid, datalagring, feilhåndtering og kostnad ved reell bruk.

Agentøkonomi blir drift, ikke demo

NVIDIA nevner at Baseten, DeepInfra og Together AI allerede betjener agentiske arbeidslaster på Blackwell, og trekker frem Cursor som eksempel via Together AI. Det passer inn i et større mønster: kodeagenter og arbeidsflytagenter går fra demo til daglig drift. Når det skjer, må driftsmålene følge etter.

Tokenforbruk er fortsatt viktig. Men det fanger ikke hele jobben. En agent kan bruke få tokens og likevel være ubrukelig hvis ventetiden ødelegger arbeidsflyten. Den kan være rask i enkelttester og likevel kollapse når tusen parallelle oppgaver kjører med lange kontekster. Den kan se billig ut per kall, men dyr per ferdig løst oppgave.

Derfor er AgentPerf interessant selv om resultatene kommer via NVIDIA. Benchmarken peker mot den typen måling virksomheter faktisk trenger: kostnad og kapasitet per agentoppgave. For norske ledere er neste steg ikke å kjøpe Blackwell-rack. Det er å stille bedre spørsmål til leverandører som selger agentfunksjoner. Hvor mange samtidige oppgaver tåler løsningen? Hva skjer når verktøykall feiler? Hva koster én fullført prosess, ikke bare én modellrespons? Og hvordan måles energibruken når agentene blir faste digitale arbeidere?

AI-agenter blir ikke gratis fordi grensesnittet ser enkelt ut. De blir en ny produksjonslast. Da må de styres som produksjon.

Kilder og medier

Primærkilde: NVIDIA, "NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark", https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/

Benchmark omtalt i primærkilden: AgentPerf fra Artificial Analysis.

Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.