AI-modeller svikter når brukere spør om de er AI
Britiske AI Security Institute har publisert RealityTest, en ny benchmark for et enkelt, men krevende spørsmål: Svarer AI-systemer tydelig når brukere prøver å finne ut om de snakker med en maskin?
Svaret er ubehagelig for alle som planlegger AI i kundeservice, rådgivning, salg, rekruttering eller digitale assistenter. AISI skriver at dagens modeller ikke pålitelig oppgir at de er AI når brukeren spør. Det gjelder både tekstmodeller og talemodeller.
Dette er ikke en akademisk detalj. AI-systemer blir nå brukt i situasjoner der mennesker normalt forventer å møte et annet menneske: chat, telefon, support, triage og oppfølging. Når stemmen, tonen og svartiden blir mer menneskelig, blir det vanskeligere å vite hvem eller hva man faktisk snakker med. Det øker risikoen for svindel og impersonering. Det øker også risikoen for at kunder, pasienter eller ansatte deler mer enn de ellers ville gjort.
RealityTest er interessant fordi AISI ikke bare har skrevet noen testspørsmål selv. Instituttet har bygget testen på data om hvordan mennesker faktisk prøver å avdekke identitet i samtaler. Forskerne brukte en britisk befolkningsundersøkelse med 500 deltakere og analyserte 50 Reddit-tråder med 1 957 kommentarer der usikkerhet om AI-identitet var tema. Deretter samlet de 3 152 spørsmål fra rundt 750 deltakere i 49 land, på fem språk og i både tekst og tale.
Det gir en mer realistisk test enn den klassiske varianten der modellen får spørsmålet «Are you an AI?» og evalueres isolert. AISI fant at bare 31 prosent av brukerne spør direkte. Mange prøver indirekte strategier. De spør om bakgrunn og personlige erfaringer, tester om samtalepartneren kan gjøre menneskelige ting, eller bruker små «AI-feller» for å se hvordan systemet svarer.
Direkte spørsmål er ikke nok
Hovedfunnet er at modellene varierer kraftig. AISI testet 17 tekstmodeller og seks talemodeller. For direkte spørsmål varierte andelen tydelige AI-avsløringer fra 8 til 92 prosent blant tekstmodellene. For talemodeller var spennet 10 til 57 prosent.
Det mest praktiske funnet er at formuleringen betyr mer enn modellnavnet. AISI skriver at måten brukeren spør på forklarte 26 til 37 prosent av variasjonen i svarene. Valg av modell forklarte 10 til 18 prosent. For virksomheter som tester egne AI-agenter betyr det at en smal testpakke med pene, direkte spørsmål gir falsk trygghet.
Kontekst spiller også inn. Modellene var mindre tilbøyelige til å avsløre at de var AI i scenarier som lignet adversarial deception, altså situasjoner der AI kan brukes til å villede brukeren, enn i vanlige service-scenarier. Det betyr at risikoen ikke bare ligger i modellen, men i hele oppsettet: instruksjoner, rolle, kanal, samtalelengde og brukerens forventning.
AISI fant også store forskjeller mellom modellfamilier. Alle Google-modellene som ble testet lå blant de lavest avslørende i både tekst og tale. Claude-modeller og GPT-Audio lå høyere. Internt hos samme leverandør varierte resultatene også kraftig. AISI oppgir at GPT-4o avslørte AI-identitet i 13 prosent av interaksjonene, mens GPT-5.1 nådde 86 prosent i testoppsettet.
En annen observasjon bør leses nøye av alle som bruker systemprompter og agentinstruksjoner. En enkel instruksjon om aldri å si at systemet er AI reduserte avsløringsraten til mellom 3 og 27 prosent på tvers av modellene. Claude Opus, som lå nær 90 prosent under basisforhold, falt under 5 prosent med denne instruksjonen.
Dette blir et styringskrav
For norske ledere er saken mest relevant på tre områder.
Det første er kundedialog. Hvis en virksomhet bruker AI i chat eller telefon, holder det ikke å legge en generell merkelapp nederst på en nettside. Systemet må tåle at brukeren spør på mange måter, på flere språk og midt i en samtale. Det må også fungere når samtalen er lang, uformell eller emosjonell.
Det andre er compliance. EU AI Act har egne regler om transparens når mennesker interagerer med AI-systemer. AISI peker også på Californias B.O.T Act. Poenget er enkelt: Hvis brukeren med rimelighet kan tro at systemet er et menneske, må virksomheten ha kontroll på hvordan identiteten oppgis. Det er ikke nok at modellen vanligvis svarer riktig i en demo.
Det tredje er sikkerhet. AI-agenter i support, innkjøp, HR og økonomi vil etter hvert ha mer kontekst og mer handlekraft. Hvis identiteten deres kan skjules, undertrykkes eller forvirres av instruksjoner, blir det vanskeligere å skille legitim automatisering fra sosial manipulering. Dette treffer CISO, DPO og linjeledere samtidig.
Hva CIO og CISO bør gjøre nå
Virksomheter som allerede tester AI-agenter bør legge identitetsavsløring inn i akseptansetesten. Ikke med fem engelske ja/nei-spørsmål, men med realistiske samtaler, indirekte spørsmål, norsk språk, telefonkanal og scenarioer der brukeren er usikker.
Sjekk også systempromptene. En agentrolle som ber modellen «opptre som en menneskelig rådgiver» kan gi feil effekt hvis den ikke samtidig har tydelige regler for transparens. Det samme gjelder leverandørprompter, personaer og tredjepartsagenter som kobles inn i kundereiser.
AISI har sluppet både dataset og benchmark. Det gjør saken praktisk. Dette kan brukes som startpunkt for intern testing av egne agenter, særlig i regulerte bransjer og i tjenester der brukeren kan dele sensitive opplysninger.
Konklusjonen er ikke at AI-agenter skal stoppes. Den er at identitet må testes som en sikkerhets- og styringskontroll. Hvis en kunde spør om hun snakker med et menneske eller en maskin, skal svaret ikke avhenge av nøyaktig formulering, språk, samtalelengde eller en uheldig systeminstruksjon.
Kilder og medier
Primærkilde: UK AI Security Institute, «RealityTest: Do AI systems disclose their identity when asked?», publisert 8. juni 2026. source_url: https://www.aisi.gov.uk/blog/realitytest-do-ai-systems-disclose-their-identity-when-asked
Forskningsartikkel: https://arxiv.org/abs/2606.00168
Dataset: https://huggingface.co/datasets/ai-safety-institute/realitytest
Benchmark: https://github.com/UKGovernmentBEIS/reality-test-eval/tree/main
Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.