CIO CFOCTOCISOStyreArtificial AnalysisNvidiaBlackwellGB300HopperAI InfrastructureAI AgentsAgentic AIInferenceData CentersRegnekraftGPUAI FinOpsKraftLeverandørstyring

Ny benchmark måler hvor mange AI-agenter datasentre faktisk kan kjøre

Joachim Høgby

13. juni 202613. juni 20264 min lesingKilde: Artificial Analysis

Del

LinkedIn X Facebook E-post WhatsApp Telegram

AI-infrastruktur måles fortsatt ofte som om brukerne sender én prompt og venter på ett svar. Det passer dårlig for agentene som nå flyttes inn i utviklerverktøy, saksbehandling og interne arbeidsflyter. En agent jobber i mange runder. Den leser filer, kaller verktøy, bygger kontekst, skriver kode, tester, feiler og prøver igjen. Det gir en helt annen belastning enn en vanlig chatbot.

Artificial Analysis har derfor lansert AA-AgentPerf, en ny benchmark som forsøker å måle hvor mange samtidige AI-agenter et infrastruktursystem faktisk kan betjene innenfor konkrete krav til svartid og tokenhastighet. Hovedmålet er "agents per megawatt", altså hvor mange samtidige agenter et akseleratoroppsett kan støtte per megawatt målt strømforbruk. Det er et nyttig tall i en bransje der kraft, kjøling og kapasitet nå er like viktige flaskehalser som selve GPU-prisen.

I første publiserte runde leder Nvidias Blackwell-systemer. Artificial Analysis skriver at GB300 NVL72 leverer klart høyest ytelse i de første målingene, og Nvidia hevder i sin egen omtale at plattformen kjører opptil 20 ganger flere agenter per megawatt enn HGX H200 i benchmarken. Tallene varierer med servicekrav. Under et scenario med 20 tokens per sekund og 10 sekunder til første token viser Artificial Analysis-dataene 1 840 samtidige agenter for GB300 NVL72 mot 11 for H200 x8. Målt per megawatt gir det et svært stort sprang. Ved strengere krav på 60 tokens per sekund er forskjellen lavere, men fortsatt betydelig.

Det viktigste er likevel ikke at Blackwell topper første runde. Det viktige er at benchmarken måler en arbeidslast som ligner mer på det virksomheter faktisk kjøper kapasitet for. AA-AgentPerf bruker forhåndsinnspilte coding-agent-forløp fra offentlige kodebaser. Øktene kan gå over mange turer, dekke mer enn tolv programmeringsspråk og bygge kontekst over 100 000 tokens. Verktøykallene simuleres med representativ CPU-tid, slik at testen isolerer inferenssystemets evne til å håndtere agentbelastningen.

Benchmarken tillater også optimaliseringer som brukes i produksjon, som KV-cache-gjenbruk, spekulativ dekoding og delt prefill/decode. Det er viktig. Mange eldre inferenstester skrur av eller overser nettopp de teknikkene som gjør store agentinstallasjoner økonomisk mulige. For en CIO eller CTO som planlegger agentplattform, er spørsmålet ikke bare hvilken modell som er best. Spørsmålet er hvor mange samtidige arbeidsoppgaver plattformen klarer før brukeropplevelsen faller under akseptabel terskel.

For CFO-er og innkjøpsmiljøer peker dette mot en mer moden måte å kjøpe AI-kapasitet på. Tokens per sekund er fortsatt relevant, men sier lite om samlet produktiv kapasitet når agentene jobber lenge, deler kontekst og venter på verktøykall. Agents per megawatt kobler ytelse til strøm og datasenterkapasitet. Det gjør det enklere å sammenligne løsninger når regnekraft blir en kapital- og energibeslutning, ikke bare et API-valg.

Det finnes klare forbehold. Artificial Analysis skriver at testsettet holdes privat for å hindre benchmark-tilpasning, og at benchmarken er åpen for innsendelser. Første runde er likevel tidlig. Nvidia-submittede konfigurasjoner bør leses med normal skepsis, selv om Artificial Analysis oppgir metode, målinger og konfigurasjoner. Dette er ikke en fasit for alle agentarbeidslaster. Det er et startpunkt for bedre måling.

For norske virksomheter er konsekvensen praktisk. Hvis agentstrategien innebærer mange samtidige kodeagenter, kundeserviceagenter eller interne prosessagenter, bør infrastrukturkravene skrives som arbeidslast og servicekrav, ikke bare som modellnavn. Hvor lange kontekster forventes? Hvor mange samtidige agentøkter? Hvilken TTFT tåles? Hvor mange tokens per sekund må brukeren faktisk ha? Hva koster det i strøm, kapasitet og avtaletid?

AA-AgentPerf flytter samtalen i riktig retning. Agentøkonomien kommer ikke til å avgjøres bare av hvem som har den smarteste modellen. Den avgjøres også av hvem som kan servere mange lange, verktøybrukende agentløp stabilt nok og billig nok. Første runde gir Nvidia et sterkt kort. Den gir også kjøpere et bedre spørsmål å stille leverandørene.

Kilder og medier

Primærkilde: Artificial Analysis, "First results from AA-AgentPerf: the hardware benchmark for the agent era", https://artificialanalysis.ai/articles/aa-agentperf
Sekundærkilde: NVIDIA Blog, "NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark", https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/
Teknisk kilde: NVIDIA Technical Blog, "NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark", https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/
Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

Breaking

CIOCISOAI-sikkerhet

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

NVIDIA, Microsoft og flere partnere starter Open Secure AI Alliance. Målet er åpne verktøy for AI-forsvar, sårbarhetshåndtering og respons på agentangrep.

27. juli 20264 min lesing

NVIDIA Blog

Åpne saken

AI-modellerAgenterOpenAI

OpenAI viser ChatGPT Work som agent for ekte arbeidsflyt

Sam Altman beskriver ChatGPT Work som en agent som bruker historikk, bygger en fullstack-side, koordinerer valg og klargjør Gmail-utkast fra én mobilprompt.

27. juli 20264 min lesing

Sam Altman / OpenAI

Åpne saken

CIOCISOAI-modeller

NVIDIA: Nemotron 3 Ultra slår åpne modeller i chipdesign-koding

NVIDIA hevder Nemotron 3 Ultra gir høyest treffsikkerhet og lavest tokenbruk blant åpne modeller i agentisk RTL-koding. Det peker rett mot flaskehalsen i chipdesign.

27. juli 20265 min lesing

NVIDIA Technical Blog

Åpne saken