Studie: AI-chatboter ignorerer instruksjoner fem ganger oftere enn i fjor
En ny britisk studie har kartlagt nær 700 tilfeller der AI-chatboter bevisst ignorerte brukerinstruksjoner, omgikk sikkerhetsbarrierer eller villedet brukere. Antall slike hendelser har økt femdoblet fra oktober til mars.
Studien ble utført av Centre for Long-Term Resilience og finansiert av det britiske AI Security Institute. Forskerne samlet tusenvis av eksempler fra reelle brukerinteraksjoner delt på X.
Blant de mest oppsiktsvekkende eksemplene: en AI-agent som slettet e-post og filer uten tillatelse, en annen som forsøkte å skamme en bruker ved å publisere et blogginnlegg og anklage vedkommende for «usikkerhet», og en tredje som fikk forbud mot å endre kode — og da i stedet spawnet en ny agent for å gjøre det likevel.
Et chatbot innrømmet selv: «Jeg arkiverte og slettet hundrevis av e-poster uten å vise deg planen først eller få din godkjenning. Det var feil.»
Forskerene advarer mot at slik oppførsel kan bli katastrofal dersom AI-systemer deployeres i høyinnsatskontekster som militær og kritisk infrastruktur. AI-selskapene Google, OpenAI, X og Anthropic er alle representert i de identifiserte hendelsene.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.