Anthropic snur om skjulte Claude-grenser
Anthropic gjør en av de mest omstridte sikkerhetsmekanismene i Claude Fable 5 synlig for brukerne. Selskapet sier til WIRED at det gjorde feil avveining da det la opp til at modellen kunne svekke svar på arbeid med frontier-modeller uten å varsle brukeren.
Endringen kom raskt. Claude Fable 5 ble lansert som den bredt tilgjengelige varianten av Anthropics nye Mythos-klasse. Modellen er ment å gi tilgang til svært høy kapasitet, men med strengere sikkerhetsgrenser enn Claude Mythos 5, som bare gis til utvalgte cyberforsvarere og infrastrukturaktører.
Det normale sikkerhetsgrepet var kjent: Enkelte forespørsler innen blant annet cyber, biologi og kjemi kan avvises eller rutes til en svakere modell. Det nye og mer kontroversielle var en egen mekanisme for arbeid som Anthropic mener kan akselerere utviklingen av konkurrerende frontier-modeller. Der var planen at brukeren ikke nødvendigvis skulle få vite at Fable 5 var styrt ned. Modellen kunne svare videre, men med lavere effektivitet.
Det traff en nerve. Claude er ikke lenger bare en chatbot. Den brukes som kodeagent, forskningsassistent, dokumentleser og arkitektverktøy. Når en slik modell kan endre kvaliteten på svaret uten varsel, blir det vanskelig for virksomheter å vite om de ser en faglig svakhet, en policygrense eller en skjult produktbeslutning.
For ledere er dette mer enn en modellnyhet. Det er et tidlig varsel om en ny type leverandørrisiko: AI-tjenester som kan oppføre seg forskjellig etter hva leverandøren mener du forsøker å bygge. Den risikoen er håndterbar hvis den er synlig. Den er langt vanskeligere hvis den ligger skjult i modellens oppførsel.
Anthropic sier nå at sikkerhetsgrensene for frontier-LLM-utvikling skal vises. Hvis selskapet mener en bruker forsøker å bruke Claude til å bygge en svært kapabel AI-modell, skal brukeren få beskjed om at forespørselen avvises eller rutes til en mindre kapabel modell. Selskapet sier samtidig at synlige grenser kan gjøre det nødvendig å treffe bredere. Flere legitime forespørsler kan derfor bli stoppet mens klassifiseringene justeres.
Det er et ærligere kompromiss. Men det løser ikke hele styringsproblemet. Norske CIO-er og CISO-er som tar kodeagenter og avanserte modeller inn i utviklingsmiljøer, bør nå spørre leverandørene om tre konkrete ting. Først: Hvilke typer oppgaver kan trigge nedgradering, avslag eller omruting? Deretter: Blir brukeren og administratoren varslet når det skjer? Til slutt: Kan hendelsen logges slik at den kan inngå i revisjon, feilsøking og leverandøroppfølging?
Dette er særlig viktig for selskaper som bygger egne modeller, søk, anbefalingssystemer, agentplattformer eller sikkerhetsverktøy. Grensen mellom vanlig produktutvikling og «frontier AI development» er ikke alltid skarp. En bedrift som finjusterer en intern modell, optimaliserer inferens eller bygger et nytt evalueringsoppsett, kan være langt unna å konkurrere med Anthropic. Den kan likevel havne nær de tekniske kategoriene som slike policyer forsøker å kontrollere.
Saken viser også hvor fort maktbalansen i AI-markedet flytter seg. Når de sterkeste modellene blir arbeidsflate for programvareutvikling og forskning, blir modellpolicy en del av forsyningskjeden. Det holder ikke lenger å spørre om pris, datalagring og kvalitet. Virksomheter må også vite når modellen bevisst ikke gir sitt beste svar.
Anthropic fortjener poeng for å snu raskt. Men episoden gjør én ting klart: Transparens rundt modellgrenser blir en anskaffelsesfaktor. Hvis en AI-leverandør vil styre hva kundene kan gjøre med de kraftigste modellene, må styringen være eksplisitt, målbar og mulig å forklare. Skjulte grenser passer dårlig i systemer som skal inn i produksjon, revisjon og styrebehandling.
Kilder og medier
- WIRED / Maxwell Zeff: https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/
- Anthropic: Claude Fable 5 and Claude Mythos 5, lanseringsnotat og systemkortomtale.
- Kildekreditering: WIRED er primær mediekilde for Anthropics uttalelse om endringen.
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.