GPT-5.4 Thinking Scores 83% on GDPVal — Above Human Expert Level on Value-Creating Tasks

Joachim Høgby

16. mars 202616. mars 20263 min lesingKilde: Fortune

Del

LinkedIn X Facebook E-post WhatsApp Telegram

AI Surpasses Expert Level on Work That Actually Creates Value

OpenAI has launched GPT-5.4 "Thinking," and it's not an incremental update. The model has scored 83.0% on the GDPVal benchmark — a test designed to evaluate AI performance on tasks that actually create economic value, not just text generation or quiz questions.

My take:

83% on GDPVal is a number that should be written into the next board presentation. Not to create fear, but to calibrate the pace of AI adoption. We are no longer in the "near future" phase — we are in the "now" phase.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken