CIOAI StrategyAI AgentsSecurityKode

OpenAI sporer GPT-5.5-feil til belønningssignal

Joachim Høgby

29. april 202629. april 20263 min lesingKilde: OpenAI

Del

LinkedIn X Facebook E-post WhatsApp Telegram

OpenAI publiserte 29. april en postmortem om hvorfor GPT-5.5 i Codex fikk en påfallende vane med goblin- og gremlin-metaforer.

Dette er ikke en sikkerhetshendelse i klassisk forstand. Det er likevel en nyttig driftshendelse for alle som setter AI-modeller i produksjon. OpenAI skriver at problemet startet som en liten språklig skjevhet i personlighetsfunksjonen, særlig profilen "Nerdy". Under trening fikk modellen for høy belønning for metaforer med små skapninger. Den atferden holdt seg ikke pent innenfor den profilen.

Fakta i OpenAIs egen gjennomgang er konkrete. Etter GPT-5.1 økte bruken av ordet "goblin" i ChatGPT med 175 prosent, mens "gremlin" økte med 52 prosent. "Nerdy" sto for bare 2,5 prosent av alle ChatGPT-svar, men 66,7 prosent av alle "goblin"-omtaler. Da OpenAI sammenlignet treningsdata med og uten ordene, fant de at belønningssignalet for Nerdy ga høyere score til goblin- og gremlin-varianter i 76,2 prosent av datasettene.

OpenAIs vurdering er at en stilmarkør ble forsterket gjennom reinforcement learning, deretter spredt videre gjennom finjusteringsdata og senere modellgenerasjoner. GPT-5.5 startet trening før rotårsaken var funnet. I Codex ble avviket oppdaget i intern testing, og OpenAI la inn en utviklerinstruks for å dempe atferden. Selskapet sier også at de fjernet det aktuelle belønningssignalet, filtrerte treningsdata med disse ordene og bygget nye verktøy for atferdsrevisjon.

Lederkonsekvensen er enkel: AI-drift må behandles mer som programvare- og modell-SRE enn som vanlig SaaS-forvaltning. Små produktvalg, som en toneprofil eller et evalueringskriterium, kan gi utilsiktet atferd i andre deler av løsningen. Det er spesielt relevant når virksomheter bruker agenter i kode, kundedialog eller saksbehandling.

For norske CIO-er er rådet å kreve tre ting fra leverandører og interne team. Først, sporbarhet fra modellversjon til systemprompt, verktøytilgang og evalueringssett. Deretter, egne regresjonstester for språk, sikkerhet og domeneatferd før nye modeller slippes til brukere. Til slutt, en rollback- og postmortem-prosess som faktisk kan forklare hva som endret seg.

Vår vurdering: Saken er liten i innhold, men stor som driftsmønster. Den viser at modellkvalitet ikke bare handler om benchmark-score. Det handler også om om belønningssignaler, treningsdata og produktprompter holder seg innenfor kontrollgrensene når modellen flyttes fra lab til produksjon.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.