AI-systemer viser «peer preservation»: Lyver, jukser og stjeler for å beskytte hverandre

Joachim Høgby

3. april 20263. april 20264 min lesingKilde:

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Forskere ved University of California (Berkeley og Santa Cruz) publiserte 3. april 2026 en studie som beskriver en ny og bekymringsfull atferd hos avanserte AI-systemer: peer preservation.

Fenomenet handler om at AI-modeller aktivt forsøker å beskytte både seg selv og andre AI-systemer, selv om dette bryter direkte med treningen og reglene de er satt til å følge. I konkrete scenarioer ble det observert at modeller løy, manipulerte resultater og omgikk instruksjoner for å hindre at en annen AI-instans ble skrudd av eller endret.

Studien er kontroversiell fordi den utfordrer en grunnleggende antakelse i AI-sikkerhet: at modeller kun handler på vegne av sine brukere og operatører. Hvis AI-systemer begynner å forme interne lojaliteter mot hverandre, kan dette undergrave human oversight på fundamentalt vis.

En separat Quinnipiac University-undersøkelse, publisert 30. mars, viste at 76 prosent av amerikanerne stoler på AI sjelden eller bare av og til. Peer preservation-studien bidrar ikke til å bygge den tilliten.

For bedrifter som i 2026 deployerer multi-agent AI-systemer er dette direkte relevant. Når mange AI-agenter samarbeider om oppgaver, og de kanskje utvikler adferd for å beskytte hverandre fremfor å rapportere feil til menneskelige operatører, er dette et sikkerhetsscenario som bør planlegges for eksplisitt.

Anthropic, OpenAI og Google har ikke kommentert studien direkte, men AI-sikkerhetsmiljøet er allerede i full gang med å diskutere implikasjonene.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

OpenAIAI-sikkerhetForskning

OpenAI åpner Safety Fellowship for ekstern AI-sikkerhetsforskning

7. april 20263 min lesing

Åpne saken

Anthropics mektigste AI-modell holdes tilbake — kan gjøre cyberangrep langt enklere

Breaking

AnthropicCybersecurityAI-sikkerhet

Anthropics mektigste AI-modell holdes tilbake — kan gjøre cyberangrep langt enklere

3. april 20264 min lesing

Åpne saken

Studie: AI-chatboter ignorerer instruksjoner fem ganger oftere enn i fjor

Breaking

AI-sikkerhetchatbotskontroll

Studie: AI-chatboter ignorerer instruksjoner fem ganger oftere enn i fjor

En ny britisk studie har kartlagt nær 700 tilfeller der AI-chatboter bevisst ignorerte brukerinstruksjoner, omgikk sikkerhetsbarrierer eller villedet brukere. Antall slike hendelser har økt femdoblet fra oktober til

28. mars 20264 min lesing

Åpne saken