CIO CISOStyreOpenAICodexAI AgentsAgent GovernanceEvalsProduksjonsdataComplianceEnterprise AIAI GovernanceSkattRegnskap

OpenAI viser hvordan AI-agenter kan lære av produksjonsfeil

Joachim Høgby

29. mai 202629. mai 20265 min lesingKilde: OpenAI

Del

LinkedIn X Facebook E-post WhatsApp Telegram

OpenAI viser hvordan AI-agenter kan lære av produksjonsfeil

OpenAI har lagt frem en konkret oppskrift på noe mange virksomheter nå famler etter: hvordan en AI-agent kan bli bedre etter produksjonsfeil uten at hver feil må ende som manuelt promptarbeid og ad hoc-feilsøking.

Eksempelet kommer fra amerikansk skattearbeid. OpenAI og Thrive Holdings har bygget Tax AI sammen med Crete, et nettverk av mer enn 30 regnskapsfirmaer. Systemet er brukt på 7 000 skattereturer i årets sesong, blant annet for amerikanske 1040- og 1041-returer. Det interessante er ikke bare at agenten automatiserer skatteforberedelser. Det interessante er hvordan feilene gjøres om til styrt læring.

OpenAI beskriver en loop der rettelser fra fagfolk blir strukturert bevis, deretter evalueringssett, og til slutt avgrensede Codex-oppgaver med tydelig suksesskriterium. Det er et mer modent bilde av agentdrift enn mye av leverandørmarkedet ellers viser. Her handler det ikke om at en agent får friere tøyler. Det handler om å bygge et kontrollert miljø der produksjonssignaler kan bli til målbare forbedringer.

For norske ledere er poenget større enn amerikansk skatt. Mønsteret treffer alle prosesser der fagfolk korrigerer maskinens forslag: kundeservice, forsikring, økonomi, innkjøp, juridisk dokumentflyt, helseadministrasjon og IT-support. Hvis rettelsene bare blir liggende i sakssystemet, lærer organisasjonen sakte. Hvis de fanges som evals, spor og regresjonstester, kan de bli en del av selve produktmaskinen.

Fra rettelse til styrt forbedring

Tax AI håndterer kildedokumenter, klientnotater og skattefelt som må tolkes, mappes og dokumenteres. Ifølge OpenAI sparer systemet regnskapsførerne om lag en tredjedel av tiden på skatteforberedelse, utarbeider returer med opptil 97 prosent nøyaktighet og øker gjennomstrømmingen med omtrent 50 prosent.

Men tallene som betyr mest for styring, er forbedringstallene. Ved lansering nådde bare en fjerdedel av returene 75 prosent korrekt feltutfylling uten senere retting. Etter seks uker var andelen 86 prosent. OpenAI skriver også at systemet forbedret seg ved 90 og 100 prosent korrekt feltutfylling etter hvert som det gikk fra enklere W-2- og 1099-arbeid til mer kompliserte K-1-er, skjemaer og edge cases.

Det kom ikke av seg selv. OpenAI peker på tre byggesteiner. Først må fagfolkene som gjør arbeidet fortsatt styre hva som betyr noe. Deretter må produktet lagre produksjonsspor, ikke bare input og output. Til slutt må feilene pakkes som evals og avgrensede utviklingsoppgaver Codex kan undersøke, endre og validere mot.

Dette er et viktig skille. En løs agent kan skrive kode, endre regler eller foreslå nye workflows. En styrt agent får en konkret feilklasse, lesetilgang til relevant produksjonsevidens, et avgrenset arbeidsområde, evals som definerer målstreken og regresjonstester som skal hindre at noe annet ryker.

Hvorfor dette angår CIO og CISO

Mange virksomheter har nå nok AI-piloter. De mangler driftsmodell. Når agenter flyttes inn i reelle prosesser, blir spørsmålene mindre glamorøse og langt viktigere: Hvem eier feilsignalet? Hvilke rettelser kan brukes til læring? Hvilke data kan en kodeagent lese? Hvilke deler av systemet får den endre? Hva må gjennom menneskelig godkjenning før produksjon?

OpenAI-eksempelet svarer ikke på alt, men det viser en retning. Produksjonsspor må bli et styringsobjekt. Rettelser må klassifiseres. Noen feil er ekstraksjonsfeil. Andre er mappingsfeil, manglende produktstøtte, faglig skjønn eller helt forventet prosess-støy. Hvis alt behandles som treningsdata, får man dårligere systemer og høyere risiko. Hvis alt rutes til mennesker, får man aldri skala.

Den praktiske konsekvensen er at evals blir like viktige som prompts. I regulerte prosesser holder det ikke at svaret ser riktig ut. Det må finnes forventede verdier, påkrevde verktøysteg, sporbarhet til kildedokumenter og tester som kan kjøres på nytt. Det er her mange agentprogrammer vil skille seg. Ikke på hvem som har den peneste demoen, men på hvem som kan måle forbedring uten å miste kontroll.

CISO-siden får også mer arbeid. OpenAI beskriver et miljø der Codex kan inspisere spor, evals, kodebase og interne ferdigheter, men der produksjonsgrunnlaget er read-only og arbeidsområdet er avgrenset. Det er riktig type design. En agent som skal forbedre et system, bør ikke ha fri tilgang til å endre selve bevisgrunnlaget den vurderer seg mot.

Ikke en universell oppskrift

Det er lett å lese OpenAI-eksempelet for optimistisk. Tax AI er bygget i en svært integrert kontekst. Thrive er både eier og operatør, og utviklerne jobbet tett med regnskapsførerne og produksjonsdataene. Det er noe annet enn å kjøpe en generisk agent fra en leverandør og slippe den løs i et ERP-system.

OpenAI understreker også at løkken er avgrenset. Codex tar ikke over arkitektur, produktbeslutninger eller endelig produksjonssetting. Den får oppgaver som allerede er gjort målbare gjennom faglig vurdering og evals. Tvetydige saker sendes tilbake til produktteamet.

Det er nettopp derfor saken er interessant. Den peker bort fra både hype og frykt. Selvforbedrende agenter blir ikke troverdige fordi de får mer autonomi. De blir troverdige når virksomheten gjør feil, rettelser, spor og validering til infrastruktur.

For norske virksomheter som bygger AI inn i kjerneprosesser, er læringen enkel: Start ikke med agenten. Start med feilsløyfen. Finn de faglige rettelsene som allerede skjer hver dag. Gjør dem sporbare. Lag evals av de repeterende mønstrene. Kjør forbedringer mot låste testsett. Hold menneskelig beslutningsmyndighet der usikkerheten er høy.

Da kan agentprogrammet gå fra pilot til drift uten at kontrollmodellen henger igjen i PowerPoint. Det er der de neste 12 månedene kommer til å skille de seriøse AI-programmene fra de dyre eksperimentene.

Kilder og medier

Primærkilde: OpenAI, "Building self-improving tax agents with Codex", publisert 27. mai 2026. https://openai.com/index/building-self-improving-tax-agents-with-codex/

Kildekreditering: OpenAI.

Thumbnail: OpenAI Image 2 / hogby.ai.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken