Anthropic ber AI-labene forberede en stoppknapp
Anthropic vil ha en reell stoppknapp for de største AI-labene. Ikke som slagord, men som en verifiserbar mekanisme som kan brukes hvis frontier-modeller begynner å forbedre seg selv raskere enn samfunn, tilsyn og sikkerhetsforskning klarer å følge med.
Reuters meldte 4. juni at selskapet mener ledende AI-utviklere bør etablere en koordinert og kontrollerbar måte å bremse eller midlertidig pause utviklingen på. Bakgrunnen er Anthropic Institutes nye gjennomgang av rekursiv selvforbedring, altså scenariet der AI-systemer i praksis kan designe, kode, teste og forbedre sine egne etterfølgere.
Anthropic sier ikke at dette er nådd. Poenget er mer ubehagelig for styrer og regulatorer: selskapet mener utviklingen kan komme tidligere enn mange institusjoner er forberedt på. Det gjør saken til mer enn en intern sikkerhetsdebatt i Silicon Valley. Den peker rett inn i hvordan selskaper, myndigheter og leverandørkjeder skal styre risiko når de kraftigste systemene ikke bare brukes i drift, men også i utviklingen av neste generasjon systemer.
Selskapet bruker egne tall for å vise tempoet. Ifølge Anthropic ble mer enn 80 prosent av koden som ble flettet inn i selskapets kodebase i mai skrevet av Claude. Anthropic skriver også at ingeniørene i dag i snitt shipper åtte ganger så mye kode per kvartal som i perioden 2021 til 2025. Det er et produktivitetsløft. Det er også et kontrollproblem. Når utviklingshastigheten øker så mye, blir eksisterende prosesser for sikkerhet, revisjon, tilgangsstyring og endringskontroll fort for trege.
Det viktigste i Anthropic-utspillet er ikke ordet pause. Det er ordet verifiserbar. En ensidig pause fra ett selskap vil ifølge Anthropic ha begrenset effekt. Den kan bare flytte kappløpet til mindre forsiktige aktører. En meningsfull bremse krever at flere godt finansierte laboratorier, gjerne i flere land, følger samme regler. Den krever også at partene kan kontrollere at de andre faktisk har bremset.
Der ligger den praktiske nøtten. AI-trening er vanskeligere å overvåke enn mange klassiske våpen- og industriprogrammer. Treningsjobber kan skjules i ordinær sky- og datasenterkapasitet. Innsatsfaktorene er generelle: GPU-er, strøm, data, programvare og talent. Anthropic skriver at en troverdig pause derfor må ha regler for hva som utløser den, hvem som kan løfte den, og hvordan andre aktører kan se at den etterleves.
For norske virksomheter er dette ikke science fiction på trygg avstand. Effekten kommer først inn via leverandørstyring. De største modellene blir bygget inn i kontorstøtte, utviklerverktøy, sikkerhetsplattformene, kundedialog og analyse. Hvis leverandørenes egne utviklingsløp i økende grad drives av modeller som igjen lager neste modell, må kjøpere stille bedre spørsmål enn «hvilken modell bruker dere?».
CIO og CISO bør be om svar på tre ting. Først: hvilke deler av produktutvikling, sikkerhetstesting og modellforbedring er automatisert med AI-agenter? Deretter: hvordan logges og revideres arbeid som er gjort av modeller, særlig når agentene har tilgang til kode, data og produksjonsmiljøer? Til slutt: hvilke eksterne forpliktelser har leverandøren hvis en frontier-modell eller et tilhørende agentmiljø må bremses, trekkes tilbake eller låses ned?
Dette blir også en styresak. Dagens AI-risiko beskrives ofte som personvern, opphavsrett, kostnad eller feil svar. Anthropic peker på en annen kategori: utviklingskontroll. Når AI brukes til å bygge AI, flyttes risiko fra brukergrensesnittet til selve produksjonsmotoren. Da holder det ikke at virksomheten har en policy for ansatte. Den må vite hvordan leverandørene styrer modellrisiko, runtime-risiko og endringsrisiko i egen verdikjede.
Regulatorisk er dette en tidlig test på om AI-tilsyn kan håndtere noe annet enn dokumentasjon etter lansering. En verifiserbar pause krever målinger, terskler, tilgang til tekniske signaler og internasjonal koordinering. EU AI Act vil gi viktige krav til generelle AI-modeller, men Anthropic beskriver en mer operasjonell mekanisme: hva gjør man når utviklingen må bremses mens den skjer, ikke etterpå.
Anthropic sier at Anthropic Institute skal forske på og bidra til systemene som trengs for en troverdig nedbremsing. Selskapet vil også samle beslutningstakere, forskere, sivilsamfunn og andre AI-selskaper for å diskutere hvordan risiko ved rekursiv selvforbedring og koordinering kan håndteres. Det er samtidig vanskelig å overse egeninteressen. Anthropic er selv et av selskapene som kan vinne på regler som premierer sikkerhet, kapital og kontroll. Derfor bør utspillet leses både som risikovarsel og som posisjonering.
Likevel er substansen viktig. Hvis frontier-labene nå mener at de trenger en koordinert stoppmekanisme, bør virksomheter som kjøper teknologien forberede sin egen mindre dramatiske variant: klare kill-switcher, logging, modellavhengighetskart, beredskap for leverandørbytte og styreforankrede terskler for når AI-funksjoner må skrus ned. Det er billigere å lage før agentene ligger dypt i kjernen av driften.
Kilder og medier
Reuters: https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04/ Primærkilde: Anthropic Institute, «When AI builds itself»: https://www.anthropic.com/institute/recursive-self-improvement Thumbnail: OpenAI Image 2 / hogby.ai📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.