GPT-5.4 Thinking scorer 83 % på GDPVal – over menneskelig ekspertnivå på verdiskapende oppgaver

Joachim Høgby

16. mars 202616. mars 20263 min lesingKilde: Fortune

Del

LinkedIn X Facebook E-post WhatsApp Telegram

AI passerer ekspertnivå på arbeid som faktisk gir verdi

OpenAI har lansert GPT-5.4 «Thinking», og det er ikke en inkrementell oppdatering. Modellen har scoret 83,0 % på GDPVal-benchmarken – en test designet for å evaluere AI-ytelse på oppgaver som faktisk skaper økonomisk verdi, ikke bare tekstgenerering eller quiz-spørsmål.

Min take:

83 % på GDPVal er et tall som bør skrives inn i neste styrepresentasjon. Ikke for å skape frykt, men for å kalibrere tempoet i AI-adopsjon. Vi er ikke lenger i «nær fremtid»-fasen – vi er i «nå»-fasen.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

AICIOCISO

Artificial Analysis: Claude Opus 5 tar ledelsen på agentbenchmark

Artificial Analysis plasserer Claude Opus 5 øverst på AA-Briefcase for agentisk kunnskapsarbeid. Viktigst for ledere: bedre analyse, men lange kjøretider og høy innsats gjør styring avgjørende.

26. juli 20265 min lesing

Artificial Analysis

Åpne saken

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken