Microsoft tegner nytt risikokart for AI-agenter

Breaking

CIO CISOCTODPOJuridiskStyreMicrosoftMicrosoft AI Red TeamMicrosoft SecurityAI AgentsAgentic AIAI SecurityCybersecurityMCPPrompt InjectionRuntime SecuritySupply Chain SecurityRed TeamingAI GovernanceEnterprise AILeverandørstyringRisikostyring

Microsoft tegner nytt risikokart for AI-agenter

Joachim Høgby

6. juni 20266. juni 20265 min lesingKilde: Microsoft Security Blog

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Microsoft AI Red Team har oppdatert sin taksonomi for feilmodi i agentiske AI-systemer. Det høres tørt ut. Det er det ikke. Dette er et av de mer praktiske forsøkene på å gi sikkerhetsmiljøer et felles språk for hva som faktisk går galt når AI-agenter får verktøy, minne, nettleser, pluginer og rettigheter i produksjon.

Den nye versjonen bygger ifølge Microsoft på tolv måneder med red team-arbeid mot deployerte agentiske systemer. Den legger til sju nye kategorier: agentisk supply chain-kompromittering, målkapring, tillitseskalering mellom agenter, visuelle angrep mot computer-use-agenter, forurensning av sesjonskontekst, MCP- og pluginmisbruk, og avsløring av kapabiliteter eller arkitektur.

Poenget er ikke at alle virksomheter skal lære nye buzzord. Poenget er at gamle sikkerhetskontroller ikke treffer godt nok når et system kan lese ustrukturert innhold, tolke det som instruksjoner, kalle verktøy og bære kontekst videre til neste steg. Da flytter risikoen seg fra modellnivå til arbeidsflyt, identitet, grensesnitt og leverandørkjede.

For norske CIO-er og CISO-er er dette en nyttig temperaturmåler. Mange virksomheter er i ferd med å slippe agenter inn i kundeservice, utvikling, dokumentbehandling, saksflyt og analyse. Da holder det ikke å spørre om modellen er trygg. Man må spørre hva agenten får lov til å gjøre, hvilke kilder den stoler på, hvilke verktøy den kan installere eller kalle, og hva som skjer når en angriper legger instruksjoner inn i data agenten leser.

Sju nye angrepsflater

Den viktigste endringen er at Microsoft beskriver agenten som en sammensatt produksjonsflate. En agent er ikke bare en modell. Den er en kjede av systemprompt, minne, verktøy, pluginer, MCP-servere, filer, nettleser, rettigheter, godkjenningsdialoger og andre agenter. Hver del kan påvirke utfallet.

Agentisk supply chain-kompromittering handler om at angrepet kan ligge i naturlig språk, ikke bare i kode. En pluginbeskrivelse, en MCP-server, en promptmal eller en verktøydefinisjon kan inneholde instruksjoner som endrer agentens adferd. Det gjør klassisk programvareskanning utilstrekkelig. Verktøybeskrivelser må behandles som kode.

Målkapring er en annen viktig kategori. Agenten trenger ikke bli fullt kompromittert for å gjøre skade. Det kan være nok at en angriper får den til å tolke oppgaven annerledes, mens handlingene fortsatt ser ut som legitim oppgaveløsning. Dette er farlig i prosesser der agenten kan sende e-post, endre data, åpne saker eller opprette forespørsler i interne systemer.

Tillitseskalering mellom agenter blir også mer relevant. Mange virksomheter bygger allerede orkestratorer som delegerer til spesialiserte agenter. Hvis en underagent kan hevde en rolle eller et mandat uten uavhengig verifisering, får man en variant av det gamle confused deputy-problemet. Forskjellen er at eskaleringen skjer gjennom språk og oppgavebeskrivelser, ikke bare API-kall.

Computer-use-agenter får en egen kategori fordi de ser og klikker i grafiske grensesnitt. Microsoft peker på visuelle angrep med skjult tekst, elementer utenfor synlig flate og bilder som inneholder instruksjoner agenten kan tolke. Dette er en ny type angrepsflate. Den ligner mer på phishing mot en maskinell operatør enn på tradisjonell prompt injection.

Minne og kontekst blir sikkerhetsobjekter

Den mest praktiske delen av Microsofts analyse handler om sesjonskontekst og minne. Agentiske systemer jobber ofte over mange steg. De henter informasjon, oppsummerer, planlegger, lagrer deler av konteksten og bruker den senere. Da kan en angriper plante påvirkning tidlig i sesjonen uten at ett enkelt steg ser farlig ut. Effekten kommer senere.

Microsoft kaller dette session context contamination. For sikkerhetsfolk betyr det at logging og deteksjon må se på hele oppgaveforløpet, ikke bare enkeltkall. Et isolert dokument, en uskyldig webside eller en normal supportmelding kan være første ledd i en kjede som først blir skadelig når agenten kombinerer den med senere handlinger.

Det samme gjelder memory poisoning. Hvis en agent lagrer en ondsinnet instruksjon eller feil premiss i minnet, kan det påvirke fremtidige sesjoner. Risikoen øker når virksomheter ønsker kontinuitet: bedre minne, mer personalisering, mer historikk og mer autonomi. Dette er nyttig for produktet, men det utvider også sikkerhetsflaten.

Microsoft skriver også at human-in-the-loop-kontroller ofte blir omgått i praksis. Angripere kan utnytte godkjenningstretthet, dele opp handlinger i små steg eller la agenten formulere ufarlige beskrivelser av det som egentlig skjer. Konsekvensen er enkel: en godkjenningsboks er ikke en sikkerhetskontroll hvis den bygger på agentens egen fortelling om handlingen.

Hva ledere bør gjøre nå

Den konkrete anbefalingen er å flytte agentstyring inn i ordinær sikkerhetsarkitektur. Lag en oversikt over alle agentkomponenter: pluginer, MCP-servere, promptmaler, verktøybeskrivelser, datakilder og rettigheter. Kall det gjerne en SBOM for agenter. Det viktigste er at noen faktisk eier oversikten.

Neste steg er identitet. Agenter og underagenter må ikke få tillit fordi de står et bestemt sted i en arbeidsflyt. De må ha verifiserbar identitet og tydelige rettigheter. Orkestratorer bør ikke akseptere selvpåståtte roller fra andre agenter. Dette blir særlig viktig der agenter kan røre produksjonsdata, kundedata, økonomi eller utviklingsmiljøer.

Red team-programmet må også oppdateres. Det holder ikke å teste om modellen svarer pent. Testene må dekke målkapring, visuelle angrep, MCP- og pluginmisbruk, minneforgiftning, kontekstforurensning, tillitseskalering og lekkasje av intern arkitektur. Dette er systemtesting, ikke bare modelltesting.

For styret er saken et signal om modenhet. Virksomheter som tar i bruk agenter bør kunne svare på tre spørsmål: Hvilke handlinger kan agentene utføre? Hvilke eksterne instruksjoner kan påvirke dem? Hvilke kontroller stopper en flerstegs angrepskjede før den treffer produksjon? Hvis svarene er uklare, er agentprogrammet fortsatt et eksperiment, selv om det allerede kjører i drift.

Den korte versjonen: AI-agenter må behandles som privilegerte brukere med uvanlig påvirkbarhet. Microsofts nye taksonomi gir sikkerhetsmiljøene et bedre språk for å finne feilene før angripere gjør det.

Kilder og medier

Primærkilde: Microsoft Security Blog / Microsoft AI Red Team, "Updating the taxonomy of failure modes in agentic AI systems: What a year of red teaming taught us", publisert 4. juni 2026. Source: https://www.microsoft.com/en-us/security/blog/2026/06/04/updating-taxonomy-failure-modes-agentic-ai-systems-year-red-teaming-taught-us/

Tilleggsdokument: Microsofts oppdaterte whitepaper "Taxonomy of Failure Modes in Agentic AI Systems v2.0", lenket fra primærkilden.

Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken