CIO CISOCTODPOStyreAnthropicClaude Fable 5Claude OpusAI GovernanceAI SecurityModel RiskFrontier AIEnterprise AILeverandørstyringRisikostyringEvalueringsregimeModellrutingTransparensComplianceAI Procurement

Anthropic snur etter skjulte Claude-sperrer

Joachim Høgby

12. juni 202612. juni 20264 min lesingKilde: The Verge

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Anthropic har beklaget at selskapet la inn en skjult sikkerhetsmekanisme i Claude Fable 5 som kunne endre modellens svar uten å varsle brukeren. Selskapet sier nå at sperren skal gjøres synlig når den slår inn.

Det høres teknisk ut. For ledere som kjøper inn eller bygger på frontier-modeller, er det en styringssak. Hvis en modell kan rute, svekke eller endre svar uten tydelig varsel, blir det vanskeligere å evaluere kvalitet, ansvar og leverandørrisiko.

Saken gjelder såkalt destillering. Det betyr at en mindre modell trenes eller forbedres ved hjelp av svar fra en større modell. Anthropic har vært tydelig på at selskapet ikke vil at Claude skal brukes til å bygge konkurrerende modeller. I systemkortet for Fable 5 beskrev selskapet en mekanisme som skulle håndtere forespørsler Anthropic tolket som forsøk på slik destillering. Problemet var ikke bare at mekanismen fantes. Problemet var at brukeren ikke nødvendigvis fikk vite at den var aktivert.

The Verge skriver at Anthropic nå endrer praksis. Forespørsler som treffer destilleringsvernet skal ikke lenger håndteres ved at Fable 5 stille degraderer svaret. I stedet skal forespørselen rutes til Claude Opus 4.8, og brukeren skal få beskjed hver gang det skjer. Anthropic formulerte det selv som at brukere skal ha innsyn i hvilke sikkerhetstiltak som er på plass og hvorfor de slår inn.

Hvorfor dette betyr noe

Sikkerhetsmekanismer i frontier-modeller er ikke nye. Modeller nekter allerede en del forespørsler innen våpen, biologisk risiko, kjemi, cyberangrep og andre områder. Det nye her er synligheten. Når en modell nekter, ruter om eller reduserer kvaliteten på svaret, er det stor forskjell på om brukeren ser det eller ikke.

For virksomheter som bruker AI i utvikling, analyse, sikkerhet eller produktarbeid, er dette mer enn en leverandørdetalj. Det påvirker testbarhet. Det påvirker revisjon. Det påvirker hvordan man forklarer feil internt. Hvis en modell gir et svakere svar fordi en leverandørpolicy er truffet, må teamet kunne skille det fra dårlig prompt, feil data, feil modellvalg eller vanlig modellsvikt.

Uten synlig signal blir feilsøkingen skjev. Et utviklingsteam kan tro at en modell ikke forstår oppgaven. En sikkerhetsavdeling kan tro at en evaluering viser svak modellkvalitet. En innkjøpsfunksjon kan sammenligne to modeller på feil grunnlag. I verste fall kan et selskap bygge automatisering rundt en modell som oppfører seg ulikt i produksjon og test uten at forskjellen er dokumentert.

Dette er kjernen i enterprise-AI akkurat nå. Modellene blir kraftigere, men også mer styrt av skjulte policyer, kommersielle grenser og sikkerhetsrutere. Leverandørene har gode grunner til å beskytte modellene sine. Kunder har like gode grunner til å kreve forklaring når svar endres. Begge deler kan være sant samtidig.

En ny innkjøpsrisiko

Destillering er også et kommersielt minefelt. Store modellleverandører vil hindre at kunder eller konkurrenter bruker dyre frontier-modeller til å lage billigere alternativer. Det er forståelig. Men når kontrollen skjer inne i modellen, og ikke som en eksplisitt policybeslutning i API-et eller grensesnittet, flyttes risikoen over på kunden.

For CIO-er og CISO-er bør dette bli et konkret spørsmål i leverandørdialogen: Når kan modellen endre svar uten å si fra? Hvilke policyer kan rute forespørsler til en annen modell? Logges dette? Kan kunden eksportere hendelsene? Gjelder det likt i API, chat, arbeidsflate og partnerkanaler?

Det samme gjelder evaluering. Mange virksomheter tester modeller med egne oppgavesett før de tar dem i bruk. Hvis leverandøren har usynlige sikkerhets- eller konkurransevern som påvirker svarene, må det være synlig i evalueringsdataene. Ellers måler man ikke bare modellen. Man måler en blanding av modell, leverandørpolicy og skjult routing.

Anthropic får neppe siste ord i denne debatten. OpenAI, Google, Microsoft, xAI, Mistral og andre har alle insentiver til å styre modellbruk. Det vil komme flere slike mekanismer. Spørsmålet er ikke om leverandørene skal ha sikkerhetsgrenser. Spørsmålet er hvor mye av beslutningen kunden får se.

Den norske ledervinkelen

For norske virksomheter er lærdommen praktisk. AI-governance kan ikke stoppe ved databehandleravtale og modellnavn. Den må ned på operasjonelt nivå: logging, modellruting, fallback, policytreff, avslag, svekkede svar og endringer i atferd etter modelloppdateringer.

Dette er særlig viktig der AI brukes i kode, sikkerhetsanalyse, juridisk arbeid, kundedialog eller beslutningsstøtte. I slike miljøer er et svar ikke bare tekst. Det kan bli en commit, en risikovurdering, en kundemelding eller en anbefaling til ledelsen. Da må man vite om svaret kom fra modellen man trodde man brukte, eller fra en annen bane.

Anthropics snuoperasjon er derfor nyttig. Ikke fordi selskapet gjorde alt riktig først. Men fordi saken setter en tydelig norm: sikkerhetsmekanismer som påvirker resultatet, må være synlige nok til at kunder kan styre, teste og forklare dem.

For leverandører blir dette et tillitsspørsmål. For kunder blir det et kravspørsmål. For styret blir det et enkelt kontrollpunkt: Kan ledelsen dokumentere når AI-systemet ikke svarer på normal måte, og hvorfor? Hvis svaret er nei, er styringen fortsatt for svak.

Kilder og medier

Kilde: The Verge, Robert Hart, «Anthropic apologizes for invisible Claude Fable guardrails», publisert 11. juni 2026. Source URL: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail

Kontekst: Anthropic, «Claude Fable 5 and Claude Mythos 5», https://www.anthropic.com/news/claude-fable-5-mythos-5

Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

Breaking

CIOCISOAI-sikkerhet

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

NVIDIA, Microsoft og flere partnere starter Open Secure AI Alliance. Målet er åpne verktøy for AI-forsvar, sårbarhetshåndtering og respons på agentangrep.

27. juli 20264 min lesing

NVIDIA Blog

Åpne saken

AI-modellerAgenterOpenAI

OpenAI viser ChatGPT Work som agent for ekte arbeidsflyt

Sam Altman beskriver ChatGPT Work som en agent som bruker historikk, bygger en fullstack-side, koordinerer valg og klargjør Gmail-utkast fra én mobilprompt.

27. juli 20264 min lesing

Sam Altman / OpenAI

Åpne saken

CIOCISOAI-modeller

NVIDIA: Nemotron 3 Ultra slår åpne modeller i chipdesign-koding

NVIDIA hevder Nemotron 3 Ultra gir høyest treffsikkerhet og lavest tokenbruk blant åpne modeller i agentisk RTL-koding. Det peker rett mot flaskehalsen i chipdesign.

27. juli 20265 min lesing

NVIDIA Technical Blog

Åpne saken