Ny benchmark måler hvor mange AI-agenter datasentre faktisk kan kjøre
AI-infrastruktur måles fortsatt ofte som om brukerne sender én prompt og venter på ett svar. Det passer dårlig for agentene som nå flyttes inn i utviklerverktøy, saksbehandling og interne arbeidsflyter. En agent jobber i mange runder. Den leser filer, kaller verktøy, bygger kontekst, skriver kode, tester, feiler og prøver igjen. Det gir en helt annen belastning enn en vanlig chatbot.
Artificial Analysis har derfor lansert AA-AgentPerf, en ny benchmark som forsøker å måle hvor mange samtidige AI-agenter et infrastruktursystem faktisk kan betjene innenfor konkrete krav til svartid og tokenhastighet. Hovedmålet er "agents per megawatt", altså hvor mange samtidige agenter et akseleratoroppsett kan støtte per megawatt målt strømforbruk. Det er et nyttig tall i en bransje der kraft, kjøling og kapasitet nå er like viktige flaskehalser som selve GPU-prisen.
I første publiserte runde leder Nvidias Blackwell-systemer. Artificial Analysis skriver at GB300 NVL72 leverer klart høyest ytelse i de første målingene, og Nvidia hevder i sin egen omtale at plattformen kjører opptil 20 ganger flere agenter per megawatt enn HGX H200 i benchmarken. Tallene varierer med servicekrav. Under et scenario med 20 tokens per sekund og 10 sekunder til første token viser Artificial Analysis-dataene 1 840 samtidige agenter for GB300 NVL72 mot 11 for H200 x8. Målt per megawatt gir det et svært stort sprang. Ved strengere krav på 60 tokens per sekund er forskjellen lavere, men fortsatt betydelig.
Det viktigste er likevel ikke at Blackwell topper første runde. Det viktige er at benchmarken måler en arbeidslast som ligner mer på det virksomheter faktisk kjøper kapasitet for. AA-AgentPerf bruker forhåndsinnspilte coding-agent-forløp fra offentlige kodebaser. Øktene kan gå over mange turer, dekke mer enn tolv programmeringsspråk og bygge kontekst over 100 000 tokens. Verktøykallene simuleres med representativ CPU-tid, slik at testen isolerer inferenssystemets evne til å håndtere agentbelastningen.
Benchmarken tillater også optimaliseringer som brukes i produksjon, som KV-cache-gjenbruk, spekulativ dekoding og delt prefill/decode. Det er viktig. Mange eldre inferenstester skrur av eller overser nettopp de teknikkene som gjør store agentinstallasjoner økonomisk mulige. For en CIO eller CTO som planlegger agentplattform, er spørsmålet ikke bare hvilken modell som er best. Spørsmålet er hvor mange samtidige arbeidsoppgaver plattformen klarer før brukeropplevelsen faller under akseptabel terskel.
For CFO-er og innkjøpsmiljøer peker dette mot en mer moden måte å kjøpe AI-kapasitet på. Tokens per sekund er fortsatt relevant, men sier lite om samlet produktiv kapasitet når agentene jobber lenge, deler kontekst og venter på verktøykall. Agents per megawatt kobler ytelse til strøm og datasenterkapasitet. Det gjør det enklere å sammenligne løsninger når regnekraft blir en kapital- og energibeslutning, ikke bare et API-valg.
Det finnes klare forbehold. Artificial Analysis skriver at testsettet holdes privat for å hindre benchmark-tilpasning, og at benchmarken er åpen for innsendelser. Første runde er likevel tidlig. Nvidia-submittede konfigurasjoner bør leses med normal skepsis, selv om Artificial Analysis oppgir metode, målinger og konfigurasjoner. Dette er ikke en fasit for alle agentarbeidslaster. Det er et startpunkt for bedre måling.
For norske virksomheter er konsekvensen praktisk. Hvis agentstrategien innebærer mange samtidige kodeagenter, kundeserviceagenter eller interne prosessagenter, bør infrastrukturkravene skrives som arbeidslast og servicekrav, ikke bare som modellnavn. Hvor lange kontekster forventes? Hvor mange samtidige agentøkter? Hvilken TTFT tåles? Hvor mange tokens per sekund må brukeren faktisk ha? Hva koster det i strøm, kapasitet og avtaletid?
AA-AgentPerf flytter samtalen i riktig retning. Agentøkonomien kommer ikke til å avgjøres bare av hvem som har den smarteste modellen. Den avgjøres også av hvem som kan servere mange lange, verktøybrukende agentløp stabilt nok og billig nok. Første runde gir Nvidia et sterkt kort. Den gir også kjøpere et bedre spørsmål å stille leverandørene.
Kilder og medier
- Primærkilde: Artificial Analysis, "First results from AA-AgentPerf: the hardware benchmark for the agent era", https://artificialanalysis.ai/articles/aa-agentperf
- Sekundærkilde: NVIDIA Blog, "NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark", https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/
- Teknisk kilde: NVIDIA Technical Blog, "NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark", https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.