Anthropic snur om skjulte Claude-grenser

Breaking

CIO CISOCTODPOStyreAnthropicClaude Fable 5Claude Mythos 5AI GovernanceAI SecurityModel RiskAI AgentsLeverandørstyringRisikostyringEnterprise AIKodeagenterAI StrategyCompliance

Anthropic snur om skjulte Claude-grenser

Joachim Høgby

11. juni 202611. juni 20264 min lesingKilde: WIRED

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Anthropic gjør en av de mest omstridte sikkerhetsmekanismene i Claude Fable 5 synlig for brukerne. Selskapet sier til WIRED at det gjorde feil avveining da det la opp til at modellen kunne svekke svar på arbeid med frontier-modeller uten å varsle brukeren.

Endringen kom raskt. Claude Fable 5 ble lansert som den bredt tilgjengelige varianten av Anthropics nye Mythos-klasse. Modellen er ment å gi tilgang til svært høy kapasitet, men med strengere sikkerhetsgrenser enn Claude Mythos 5, som bare gis til utvalgte cyberforsvarere og infrastrukturaktører.

Det normale sikkerhetsgrepet var kjent: Enkelte forespørsler innen blant annet cyber, biologi og kjemi kan avvises eller rutes til en svakere modell. Det nye og mer kontroversielle var en egen mekanisme for arbeid som Anthropic mener kan akselerere utviklingen av konkurrerende frontier-modeller. Der var planen at brukeren ikke nødvendigvis skulle få vite at Fable 5 var styrt ned. Modellen kunne svare videre, men med lavere effektivitet.

Det traff en nerve. Claude er ikke lenger bare en chatbot. Den brukes som kodeagent, forskningsassistent, dokumentleser og arkitektverktøy. Når en slik modell kan endre kvaliteten på svaret uten varsel, blir det vanskelig for virksomheter å vite om de ser en faglig svakhet, en policygrense eller en skjult produktbeslutning.

For ledere er dette mer enn en modellnyhet. Det er et tidlig varsel om en ny type leverandørrisiko: AI-tjenester som kan oppføre seg forskjellig etter hva leverandøren mener du forsøker å bygge. Den risikoen er håndterbar hvis den er synlig. Den er langt vanskeligere hvis den ligger skjult i modellens oppførsel.

Anthropic sier nå at sikkerhetsgrensene for frontier-LLM-utvikling skal vises. Hvis selskapet mener en bruker forsøker å bruke Claude til å bygge en svært kapabel AI-modell, skal brukeren få beskjed om at forespørselen avvises eller rutes til en mindre kapabel modell. Selskapet sier samtidig at synlige grenser kan gjøre det nødvendig å treffe bredere. Flere legitime forespørsler kan derfor bli stoppet mens klassifiseringene justeres.

Det er et ærligere kompromiss. Men det løser ikke hele styringsproblemet. Norske CIO-er og CISO-er som tar kodeagenter og avanserte modeller inn i utviklingsmiljøer, bør nå spørre leverandørene om tre konkrete ting. Først: Hvilke typer oppgaver kan trigge nedgradering, avslag eller omruting? Deretter: Blir brukeren og administratoren varslet når det skjer? Til slutt: Kan hendelsen logges slik at den kan inngå i revisjon, feilsøking og leverandøroppfølging?

Dette er særlig viktig for selskaper som bygger egne modeller, søk, anbefalingssystemer, agentplattformer eller sikkerhetsverktøy. Grensen mellom vanlig produktutvikling og «frontier AI development» er ikke alltid skarp. En bedrift som finjusterer en intern modell, optimaliserer inferens eller bygger et nytt evalueringsoppsett, kan være langt unna å konkurrere med Anthropic. Den kan likevel havne nær de tekniske kategoriene som slike policyer forsøker å kontrollere.

Saken viser også hvor fort maktbalansen i AI-markedet flytter seg. Når de sterkeste modellene blir arbeidsflate for programvareutvikling og forskning, blir modellpolicy en del av forsyningskjeden. Det holder ikke lenger å spørre om pris, datalagring og kvalitet. Virksomheter må også vite når modellen bevisst ikke gir sitt beste svar.

Anthropic fortjener poeng for å snu raskt. Men episoden gjør én ting klart: Transparens rundt modellgrenser blir en anskaffelsesfaktor. Hvis en AI-leverandør vil styre hva kundene kan gjøre med de kraftigste modellene, må styringen være eksplisitt, målbar og mulig å forklare. Skjulte grenser passer dårlig i systemer som skal inn i produksjon, revisjon og styrebehandling.

Kilder og medier

WIRED / Maxwell Zeff: https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/
Anthropic: Claude Fable 5 and Claude Mythos 5, lanseringsnotat og systemkortomtale.
Kildekreditering: WIRED er primær mediekilde for Anthropics uttalelse om endringen.
Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

Breaking

CIOCISOAI-sikkerhet

NVIDIA og Microsoft åpner AI-sikkerhetsallianse

NVIDIA, Microsoft og flere partnere starter Open Secure AI Alliance. Målet er åpne verktøy for AI-forsvar, sårbarhetshåndtering og respons på agentangrep.

27. juli 20264 min lesing

NVIDIA Blog

Åpne saken

AI-modellerAgenterOpenAI

OpenAI viser ChatGPT Work som agent for ekte arbeidsflyt

Sam Altman beskriver ChatGPT Work som en agent som bruker historikk, bygger en fullstack-side, koordinerer valg og klargjør Gmail-utkast fra én mobilprompt.

27. juli 20264 min lesing

Sam Altman / OpenAI

Åpne saken

CIOCISOAI-modeller

NVIDIA: Nemotron 3 Ultra slår åpne modeller i chipdesign-koding

NVIDIA hevder Nemotron 3 Ultra gir høyest treffsikkerhet og lavest tokenbruk blant åpne modeller i agentisk RTL-koding. Det peker rett mot flaskehalsen i chipdesign.

27. juli 20265 min lesing

NVIDIA Technical Blog

Åpne saken