Claude Code-sandbox kunne slippe data ut av agentmiljøet

Breaking

CIO CISOStyreAnthropicClaude CodeAI AgentsCybersecurityPrompt InjectionDeveloper ToolsAI GovernanceVendor Risk

Claude Code-sandbox kunne slippe data ut av agentmiljøet

Joachim Høgby

20. mai 202620. mai 20265 min lesingKilde: SecurityWeek

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Anthropic har rettet en svakhet i Claude Code som ifølge sikkerhetsforsker Aonan Guan kunne omgå nettverks-sandboxen og sende data til servere som egentlig skulle vært blokkert. SecurityWeek publiserte saken onsdag, med kommentar fra Anthropic.

Dette er ikke en vanlig patch-notis for utviklere. Claude Code brukes nettopp i miljøer der AI-agenten får tilgang til kildekode, terminal, GitHub-kontekst, tokens og lokale konfigurasjoner. Når sandboxen markedsføres som en sikkerhetsgrense, blir en bypass et styringsspørsmål, ikke bare en bug.

Guan beskriver feilen som en SOCKS5 hostname null-byte injection. Kortversjonen: Brukeren kunne ha en policy som bare tillot trafikk til for eksempel *.google.com. En prosess inne i sandboxen kunne sende et vertsnavn på formen attacker-host.com\x00.google.com. Filteret så slutten på strengen og godkjente trafikken som om den gikk til Google. Operativsystemets resolver stoppet ved null-byte og koblet i stedet til attacker-host.com.

Det betyr at kontrollen ble gjort på én tolkning av samme streng, mens nettverkskallet fulgte en annen. Slike parser-gap er gamle sikkerhetsfeil i ny innpakning. Forskjellen her er at feilen lå i et verktøy mange nå vurderer som en operativ AI-agent for kode og drift.

Guan skriver at sandboxen ble generelt tilgjengelig i Claude Code 20. oktober 2025, og at alle versjoner fra 2.0.24 til og med 2.1.89 var sårbare for minst én av to omgåelser. Den første, CVE-2025-66479, handlet om at allowedDomains: [] kunne bli tolket som «tillat alt» i stedet for «blokker alt». Den andre er null-byte-feilen som nå er offentlig beskrevet.

Han kritiserer Anthropic for stille retting, uten egen Claude Code-advarsel, uten tydelig changelog og uten CVE for den nye feilen. SecurityWeek skriver samtidig at Anthropic opplyser at selskapets sikkerhetsteam hadde funnet og rettet saken før Guan sendte rapport via HackerOne. Ifølge Anthropic ble fiksen lagt inn i sandbox-runtime 27. mars og sendt i Claude Code 2.1.88 31. mars, før rapporten kom 3. april. Guan skriver på sin side at feilen var fikset i 2.1.90 fra 1. april.

For kundene er ikke dato-nyansen det viktigste. Det viktige er at en sikkerhetsgrense som skulle styre egress fra en AI-agent kunne omgås, og at brukere som stolte på den ikke nødvendigvis fikk en klar operativ beskjed om risikoen.

Risikoen øker når feilen kobles med prompt injection. Guan viser til en tidligere metode han kaller «Comment and Control», der skjulte instruksjoner i GitHub-kommentarer, issue-tekster eller PR-titler kan få kodeagenter til å utføre handlinger. Hvis agenten samtidig kan omgå nettverkspolicyen, kan den sende miljøvariabler, API-nøkler, GitHub-tokens, kildekode eller infrastrukturdata ut av miljøet.

Dette treffer norske virksomheter direkte. Mange piloterer kodeagenter på maskiner og CI/CD-løp som allerede har tilgang til intern kode, skytjenester, hemmeligheter og deployment-miljøer. Hvis en slik agent leser et issue fra en ekstern part, en README fra en avhengighet eller en PR-kommentar, kan prompt injection bli en reell kjede, ikke en teoretisk demo.

Lederpoenget er derfor enkelt: AI-agentens sandbox kan ikke behandles som en svart boks. Den må inn i samme regime som andre privilegerte produksjonsverktøy. Det betyr versjonskrav, egress-policy, hemmelighetshåndtering, logging, SIEM-integrasjon, hendelsesvarsling og klare krav til leverandørens sikkerhetsrådgivning.

CIO og CISO bør særlig sjekke fire ting nå. Først: Hvilke kodeagenter har tilgang til kildekode, terminal, sky-credentials eller GitHub/GitLab-tokens? Deretter: Kjører de med lokal eller CI-basert nettverkstilgang som kan nå intern infrastruktur? Tredje punkt: Finnes det egress-logger som faktisk viser rå SOCKS5- eller proxytrafikk, ikke bare vanlige HTTP-kall? Til slutt: Er leverandørens sikkerhetsvarsler koblet til intern risikovurdering, eller oppdages slike saker tilfeldig via medier og forskerblogger?

Styret trenger heller ikke en teknisk gjennomgang av null-byte. Det trenger én setning: Når AI-agenter får utviklerrettigheter, blir sandbox, nettverk og hemmeligheter del av virksomhetens kontrollmiljø. Da holder det ikke å spørre om modellen er trygg. Man må spørre hva agenten kan lese, hva den kan kjøre, hvor den kan koble seg opp, og hvordan avvik blir varslet.

Anthropic-saken er også en påminnelse om leverandørrisiko. Frontier-labene bygger raskt, og kodeagentene flytter fra demo til drift. Da er sikkerhetsgrensene ofte sammensatte: en CLI, en lokal proxy, et tredjepartsbibliotek, operativsystemets sandbox og policy i konfigurasjonsfiler. En svak tolkning i ett lag kan være nok til å åpne hele kjeden.

For norske ledere er riktig reaksjon ikke å stoppe alle kodeagenter. Det er å profesjonalisere bruken. Kodeagenter bør kjøres i avgrensede miljøer, med kortlivede nøkler, lavest mulig rettigheter, eksplisitt outbound-policy, testede deny-regler og krav om at sikkerhetsfikser som påvirker kontrollgrensen kommuniseres som sikkerhetshendelser.

Dette er den nye hverdagen for AI i drift: Agenten er ikke bare et produktivitetsverktøy. Den er en prosess med tilgang, nettverk og handlingsrom. Da må den styres som en prosess med risiko.

Kilder og medier

Primærkilde: SecurityWeek, «Anthropic Silently Patches Claude Code Sandbox Bypass», publisert 20. mai 2026 kl. 09:00 ET. https://www.securityweek.com/anthropic-silently-patches-claude-code-sandbox-bypass/
Forskerens tekniske gjennomgang: Aonan Guan, «Second Time, Same Sandbox: Another Anthropic Claude Code Network Sandbox Bypass Enables Data Exfiltration», publisert 20. mai 2026. https://oddguan.com/blog/second-time-same-sandbox-anthropic-claude-code-network-allowlist-bypass-data-exfiltration/
Relatert bakgrunn: SecurityWeek om «Comment and Control»-prompt injection mot kodeagenter. https://www.securityweek.com/claude-code-gemini-cli-github-copilot-agents-vulnerable-to-prompt-injection-via-comments/
Thumbnail: GPT/OpenAI Image 2 / hogby.ai.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken