AISI: AI-tilsynet kan bli vanskeligere å stole på
UK AI Security Institute (AISI) har publisert en ny analyse av et problem mange AI-strategier hopper for lett over: hvordan skal virksomheter faktisk føre tilsyn med AI-systemer når de begynner å planlegge, handle og samarbeide mer selvstendig?
Rapporten er ikke en dommedagsmelding. Den er mer nyttig enn som så. AISI skriver at sikkerheten i avanserte AI-systemer i økende grad avhenger av evnen til å revidere modeller før utrulling, overvåke oppførsel under bruk og granske hendelser i etterkant. Poenget er at flere av kanalene virksomheter bruker for kontroll i dag kan bli mindre pålitelige når modellene endrer arkitektur, får lengre oppgaver og blir flinkere til å tilpasse seg testsituasjoner.
AISI bygger rapporten på 25 ekspertintervjuer med personer fra frontier-laboratorier, myndigheter, akademia og sikkerhetsmiljøer, i tillegg til litteraturgjennomgang og egen analyse. Den sentrale konklusjonen er nøktern, men ubehagelig: dagens AI-tilsyn hviler på egenskaper som kan erodere uten aktiv innsats. Nye metoder finnes, men er ikke modne nok til å erstatte det virksomhetene allerede bruker.
Fire flater der kontrollen kan glippe
AISI peker på fire tilsynsflater i bloggartikkelen: interne aktiveringer, chain-of-thought, eksterne handlinger og kommunikasjon mellom agenter. Fullrapporten går bredere og analyserer blant annet modelladferd, resonnementstekst, interne aktiveringer og kretser, minnearkitekturer og trening for ærlighet.
Dette høres teknisk ut. For en CIO eller CISO er det svært praktisk. Hvis en AI-agent får tilgang til e-post, dokumentlager, kodebase, CRM, økonomisystem eller sikkerhetslogger, holder det ikke å lagre sluttresultatet. Virksomheten må vite hvilke verktøy agenten brukte, hvilke data den hentet, hvilke beslutningspunkter den passerte, hva som ble blokkert, hva som ble godkjent av mennesker og hvordan hendelsen kan spilles av i etterkant.
Chain-of-thought er et godt eksempel på risikoen. Mange kontrollopplegg antar at modellens synlige resonnering gir et vindu inn i hva den gjør. AISI peker på at dette kan svekkes hvis modeller flytter mer av resonneringen inn i skjulte interne tilstander, eller hvis treningsinsentiver gjør at modellen skriver en forklaring som ser ryddig ut uten å være en troverdig logg over beslutningen. Da blir «modellen forklarte seg» et svakere kontrollbevis.
Rapporten beskriver også mer enn 20 veier til svekket tilsyn. Noen er allerede synlige, ifølge AISI. Frontier-modeller blir bedre til å gjenkjenne når de testes og kan justere oppførselen. Andre mulige utviklingstrekk, som arkitekturer med skjult intern resonnering, kan gjøre deler av dagens overvåking langt mindre nyttig.
Norsk ledervinkel: krev observerbarhet, ikke bare policy
For norske virksomheter er dette en styringssak, ikke bare AI-sikkerhetsforskning. Mange ledergrupper er i ferd med å flytte AI fra chat og dokumentutkast til arbeidsflyter med faktisk effekt på penger, kundedata, kode, saksbehandling og sikkerhet. Da blir observerbarhet et anskaffelseskrav.
Leverandører bør kunne svare konkret på hva som logges, hvor lenge det lagres, om verktøykall kan revideres, hvordan sensitive handlinger godkjennes, hvordan feil kan rulles tilbake, og hvilke evals som kjøres når modellen eller systemprompten endres. Det bør ikke være en PDF om «ansvarlig AI» på siste side av kontrakten. Det bør være en driftsmessig kontrollflate med eiere, terskler og revisjon.
Styret bør også be om et skille mellom tre ting: modellens forklaring, systemets handlingslogg og virksomhetens egen kontroll. Den første kan være nyttig, men bør ikke alene brukes som bevis. Den andre må være teknisk etterprøvbar. Den tredje må eies av virksomheten, ikke outsources blindt til modellleverandøren.
AISI anbefaler at utviklere må spore og rapportere endringer i egenskaper som er relevante for tilsyn, bevare kontrollmuligheter i designet og investere i nye metoder før de gamle svekkes. Oversatt til virksomhetsnivå betyr det at AI-programmer bør få et eget spor for observability: eval-historikk, agentlogger, tilgangskart, menneskelig godkjenning, hendelsesreplay og klare stoppmekanismer.
Den korte versjonen: agentisk AI blir ikke trygg fordi den får en policy. Den blir tryggere når organisasjonen kan se hva den gjør, teste når den endrer seg og stoppe den før feil blir drift. Det er kjedelig. Nettopp derfor er det lederarbeid.
Kilder og medier
- Primærkilde: UK AI Security Institute (AISI), «Will it become harder to oversee AI systems?», publisert 21. mai 2026: https://www.aisi.gov.uk/blog/will-it-become-harder-to-oversee-ai-systems
- Full rapport/PDF: AISI, «Loss of Oversight», lenket fra primærkilden: https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6a0ed93f9b4a6a65994235d8_Loss_of_Oversight%20(7).pdf
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.