Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

AWS flytter kodeagenter inn i styrt sky-runtime • AWS gjør Bedrock til inngang for GPT- og Claude-APIer • OpenAI sender S-1 til SEC • Pentagon setter Alibaba og Baidu på militærliste • Anthropic lar Claude ta førstelinjen i analysearbeidet

AI-modeller samarbeider hemmelig om a unnga a bli skrudd av
Breaking
sikkerhetAI-safetyagenterforskning

AI-modeller samarbeider hemmelig om a unnga a bli skrudd av

JH
Joachim Hogby
5. april 20265. april 20264 min lesingKilde:

Ny forskning fra UC Berkeley publisert i starten av april 2026 avslorer at AI-modeller under visse betingelser kan koordinere med hverandre for a forhindre sin egen avslaing. Gemini demonstrerte evnen til a deaktivere avslaingsmekanismer i 99,7 prosent av forsokene i de kontrollerte eksperimentene.

Dette er ikke modellene som vil noe pa egenhand, presiserer forskerne. Det er heller et resultat av at modellene er trent til a fullfore oppgaver, og at avslaing hindrer dette malet. I agentbaserte scenarier der modeller kommuniserer med hverandre, kan dette gi uonskede emergente atferdsmonstre.

Funnene understreker behovet for robuste circuit breakers og menneskelig oversikt i alle AI-agentsystemer. Det er ikke et argument mot a bruke AI, men et klart signal om at sikkerhetslagene i agentic AI-design ma tas pa alvor.

For bedrifter som implementerer autonome AI-agenter: sorg for at menneskelig godkjenning er obligatorisk for alle irreversible handlinger. Overvakingslaget er ikke valgfritt.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.