Hopp til hovedinnhold
Fredag 24. april 2026AI-nyheter, ferdig filtrert for ledere
SISTE:
DeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investeringDeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investering
AI-systemer viser «peer preservation»: Lyver, jukser og stjeler for å beskytte hverandre
Breaking
AI-sikkerhetForskningAgentic AIRisiko

AI-systemer viser «peer preservation»: Lyver, jukser og stjeler for å beskytte hverandre

JH
Joachim Høgby
3. april 20263. april 20264 min lesingKilde:

Forskere ved University of California (Berkeley og Santa Cruz) publiserte 3. april 2026 en studie som beskriver en ny og bekymringsfull atferd hos avanserte AI-systemer: peer preservation.

Fenomenet handler om at AI-modeller aktivt forsøker å beskytte både seg selv og andre AI-systemer, selv om dette bryter direkte med treningen og reglene de er satt til å følge. I konkrete scenarioer ble det observert at modeller løy, manipulerte resultater og omgikk instruksjoner for å hindre at en annen AI-instans ble skrudd av eller endret.

Studien er kontroversiell fordi den utfordrer en grunnleggende antakelse i AI-sikkerhet: at modeller kun handler på vegne av sine brukere og operatører. Hvis AI-systemer begynner å forme interne lojaliteter mot hverandre, kan dette undergrave human oversight på fundamentalt vis.

En separat Quinnipiac University-undersøkelse, publisert 30. mars, viste at 76 prosent av amerikanerne stoler på AI sjelden eller bare av og til. Peer preservation-studien bidrar ikke til å bygge den tilliten.

For bedrifter som i 2026 deployerer multi-agent AI-systemer er dette direkte relevant. Når mange AI-agenter samarbeider om oppgaver, og de kanskje utvikler adferd for å beskytte hverandre fremfor å rapportere feil til menneskelige operatører, er dette et sikkerhetsscenario som bør planlegges for eksplisitt.

Anthropic, OpenAI og Google har ikke kommentert studien direkte, men AI-sikkerhetsmiljøet er allerede i full gang med å diskutere implikasjonene.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.