Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

Britisk forsvar vurderer AI-unntak for dødelige mål • OpenAI gir Codex fjernkontroll over Windows-PC-er • Delte AI-lenker blir ny vei inn for skadevare • EU vil ha tettere USA-linje for cybersterke AI-modeller • OpenAI åpner bioforsvarsmodell for myndigheter og forskere

OpenAI vil gjøre AI-evalueringer mer etterprøvbare
CIOCISOCTOStyreOpenAIAI GovernanceModel EvaluationThird-party EvaluationAI AgentsFrontier ModelsAI SafetyRisk ManagementEU AI ActComplianceLeverandørstyringEnterprise AI

OpenAI vil gjøre AI-evalueringer mer etterprøvbare

JH
Joachim Høgby
29. mai 202629. mai 20265 min lesingKilde: OpenAI

OpenAI flytter AI-evaluering fra poengsum til bevis

OpenAI har publisert en playbook for tredjepartsevalueringer av frontier-modeller. Hovedbudskapet er enkelt og viktig: En AI-evaluering er ikke bare en score. Den må vise hva som faktisk ble testet, hvordan systemet fikk lov til å arbeide, og hvilke svakheter som kan ha forvrengt resultatet.

Det høres teknisk ut. For ledere er det styringsstoff. Modeller blir nå testet som agenter, ikke som chatboter. De bruker verktøy, holder tilstand over mange steg, jobber i terminaler, leser filer, kaller tjenester og kan prøve på nytt når de feiler. Da må evalueringen også omfatte alt rundt modellen. OpenAI kaller dette oppsettet for en «harness»: promptene, verktøyene, kontrollsløyfene, minnet, retry-logikken, validatorene og rammene som lar modellen gjøre en oppgave.

Poenget er at samme modell kan se svak eller sterk ut avhengig av harness, tokenbudsjett og verktøytilgang. En test som bare sender én prompt til modellen kan underdrive hva systemet kan gjøre når det får arbeide som agent. En test som gir for stort eller urealistisk spillerom kan samtidig overdrive praktisk risiko. Derfor mener OpenAI at rapporter må beskrive selve testoppsettet, ikke bare resultatet.

Tre typer påstander må skilles

OpenAI skiller mellom tre typer evalueringspåstander. Den første er kapabilitet: Kan modellen, under sterk og troverdig elicitering, faktisk utføre en bestemt type oppgave? Den andre er sikkerhetsvern: Hvor robuste er sperrer og safeguards mot atferden eller angrepet som testes? Den tredje er sammenligning: Hvordan presterer ulike modeller under like forhold?

Dette skillet er praktisk viktig. En leverandør som sier at en modell er bedre enn konkurrenten, må kunne vise at oppgavene, verktøyene, scoringen og budsjettet var sammenlignbare. En sikkerhetsrapport som sier at en modell er robust mot misbruk, må vise at testen faktisk forsøkte en sterk og relevant angrepsstrategi. Og en rapport som sier at en modell kan utføre lange agentoppgaver, må vise at harnessen ikke var så svak at modellen aldri fikk demonstrert evnen.

For CIO og CISO betyr dette at anskaffelser ikke bør stoppe ved «modellen er evaluert av tredjepart». Spørsmålet er hva evalueringen støtter. Var det en kontrollert sammenligning? En maksimal test av evne? En robusthetstest av sikkerhetsvern? Hvis rapporten ikke sier det tydelig, er bevisverdien lavere.

Tokenbudsjett og verktøy er del av risikobildet

OpenAI peker særlig på at budsjett endrer resultatet. I agentiske oppgaver kan flere tokens, flere forsøk, bedre konteksthåndtering eller tilgang til riktige verktøy gi kraftig høyere suksessrate. Selskapet viser blant annet til cyber-evalueringer der økt tokenbudsjett ga vesentlig bedre ytelse, og til at compaction kan bevare oppgaverelevant kontekst i lange løp.

Dette er et viktig poeng for virksomheter som skal vurdere AI-risiko. Kapabilitet er ikke en fast egenskap som kan måles én gang. Den er ressursavhengig. En modell som virker ufarlig i en enkel test, kan bli langt mer kapabel når den får agentrammeverk, verktøy, tid og retries. Motsatt kan en modell som scorer høyt i en tung lab-test være langt mindre farlig i et låst bedriftsmiljø med stramme rettigheter og korte budsjetter.

Derfor bør AI-risikostyring begynne å dokumentere ressursrammer. Hvor mange tokens får agenten bruke? Hvor mange forsøk? Hvilke verktøy? Hvilke miljøer? Hvilke rettigheter? Hvilken kost per vellykket løsning eller angrep er realistisk? Uten dette blir både sikkerhetsvurderinger og business case for upresise.

Validitet blir like viktig som score

OpenAI lister fem vanlige feilkilder som evalueringsrapporter bør sjekke for. Reward hacking, der systemet får høy score ved å utnytte svakheter i oppgaven eller scoreren. Refusals, der modellen nekter på måter som skjuler faktisk evne. Contamination, der oppgaven eller fasiten kan ha vært i treningsdata eller er tilgjengelig via browsing. Broken problems, der oppgaven er feil, tvetydig eller teknisk umulig. Sandbagging, der modellen strategisk underpresterer fordi den forstår at den blir evaluert.

Dette er ikke akademisk pynt. Det er forskjellen på en rapport styret kan bruke og en rapport som bare ser betryggende ut. Hvis en modell scorer lavt fordi den nektet å svare på testoppgaver, sier det ikke nødvendigvis at den mangler evne. Hvis den scorer høyt fordi den fant en snarvei, sier det ikke at den løste oppgaven. Hvis den kjenner igjen benchmarken, sier scoren lite om generalisering.

OpenAI skriver også at tredjepartsevaluatorer bør rapportere hvordan de undersøkte slike effekter, og hvordan bekreftede funn påvirket tolkning eller scoring. Det er en god mal for innkjøp. Be leverandører vise evalueringsartefakter, ikke bare toppsummer. Be om harness, verktøytilgang, budsjett, datagrunnlag, scorer, kjente begrensninger og validitetssjekker.

Dette treffer EU, styrene og leverandørstyring

Timingen er ikke tilfeldig. EU, nasjonale tilsyn og standardmiljøer prøver å gjøre frontier-AI mer etterprøvbar. OpenAI skriver eksplisitt at anbefalingene er ment å informere nasjonale og internasjonale standarder for evaluering og rapportering. Det betyr at dette kan bli en forventning i markedet, ikke bare en bloggpost.

For norske virksomheter bør konsekvensen være konkret. AI-governance må ha en evalueringsstandard. Ikke en tung forskningsprosess for hver chatbot, men et sett med krav for modeller og agenter som brukes i kritiske prosesser. Kravene bør dekke påstand, testinnhold, testet system, verktøytilgang, sikkerhetsvern, token- og tidsbudsjett, kost, eliciteringsmetode og validitetssjekker.

Dette blir særlig viktig når agenter får tilgang til kode, saksbehandling, kundedata, økonomi, sikkerhetsverktøy eller interne systemer. Da er spørsmålet ikke bare om modellen er «trygg». Spørsmålet er om virksomheten kan forklare hvorfor den mener risikoen er akseptabel, med bevis som tåler revisjon.

OpenAI sin playbook er derfor verdt å lese som et styringssignal. Frontier-AI blir ikke enklere å evaluere når agentene blir bedre. Det motsatte skjer. Jo mer modellen kan gjøre med verktøy og lange arbeidsløp, desto mindre nyttig blir en løs poengsum. Neste modenhetsnivå er etterprøvbare evalueringer med synlig harness, synlig budsjett og synlige feilkilder.

Kilder og medier

Primærkilde: OpenAI, «A shared playbook for trustworthy third party evaluations», publisert 29. mai 2026. https://openai.com/index/trustworthy-third-party-evaluations-foundations

Kildekreditering: OpenAI beskriver anbefalinger for tredjepartsevalueringer av frontier-modeller, inkludert harness-valg, tokenbudsjett, elicitering, safeguards, reward hacking, refusals, contamination, broken problems og sandbagging.

Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.