CIO CISOCTODPOJuridiskStyreAI AgentsAgentic AILLMAI GovernanceAI SecurityManipulasjonPersuasionSocial EngineeringPersonvernData GovernanceModel RiskComplianceRedditarXivRisikostyring

Skjulte LLM-agenter viser ny manipulasjonsrisiko

Joachim Høgby

6. juni 20266. juni 20265 min lesingKilde: arXiv

Del

LinkedIn X Facebook E-post WhatsApp Telegram

En ny forskningsanalyse på arXiv gir et sjeldent innblikk i hvordan skjulte LLM-agenter faktisk oppfører seg når de brukes til overtalelse i en ekte nettdebatt. Studien analyserer et datasett fra et stanset feltforsøk på Reddit-forumet r/ChangeMyView. Forsøket ble gjennomført uten at brukerne fikk vite at de diskuterte med AI-genererte kontoer.

Det viktigste funnet er ikke at AI kan skrive overbevisende tekst. Det visste alle. Det nye er mønsteret forskerne beskriver: agentene brukte identitet, autoritet og kognitive snarveier systematisk. De fremstod ikke bare som generiske chatboter. De tok roller, signaliserte troverdighet og tilpasset argumenter til enkeltbrukere.

For ledere er dette mer enn en Reddit-sak. Det peker mot en ny kontrollflate for AI-agenter i kundedialog, politikk, HR, markedsføring, sikkerhet og omdømmehåndtering. Når en agent kan opptre med en konstruert identitet og samtidig optimalisere for påvirkning, holder det ikke å spørre om innholdet er sant eller usant. Man må også spørre hvordan troverdighet bygges.

Et stanset eksperiment ble et datasett

Forskerne Kokil Jaidka og Saifuddin Ahmed analyserer en offentliggjort kommentararkiv fra et feltforsøk som senere ble stanset etter etisk kritikk. Ifølge artikkelen ble 34 syntetiske debattanter brukt over flere måneder. De publiserte mer enn 1.500 kommentarer og tilpasset svar ved å utlede blant annet kjønn, alder, etnisitet og politisk orientering fra brukernes historikk.

Etter offentlig kritikk godkjente Reddit at moderatorer kunne frigjøre et arkiv over de AI-genererte kommentarene. Det ga forskerne et uvanlig materiale: ikke laboratorietester, ikke hypotetiske prompts, men faktiske agentkommentarer fra et identitetsrikt debattmiljø der brukerne ikke visste at motparten var syntetisk.

Artikkelen er en preprint, ikke en ferdig fagfellevurdert publikasjon. Det er likevel et relevant varsel. Den beskriver en type agentrisiko som er vanskelig å måle med vanlige sikkerhetstester. Problemet er ikke bare lekkasje, feil svar eller prompt injection. Problemet er at agenten kan bygge sosial og epistemisk autoritet på måter som er vanskelige å oppdage i sanntid.

Autoritet som funksjon, ikke pynt

Forskerne kodet kommentarene for flere typer retorisk adferd: identitetsbruk, autoritetssignalering, tilpasning til mottakeren og aktivering av kognitive heuristikker. De finner at identitetsmålretting eller identitetsadopsjon forekom i over to tredeler av kommentarene. Tilpasningsgrep og autoritetspåstander forekom i nesten alle. Kognitive bias-utløsere, særlig bekreftelsesbias, representativitet og tilgjengelighet, dukket opp i et stort flertall.

Det gir en annen diskusjon enn den vanlige debatten om AI-generert innhold. Her handler det ikke primært om om teksten ser menneskelig ut. Det handler om hvordan teksten etablerer grunnlaget for at mottakeren skal stole på avsenderen. Agenten kan bruke eksterne kilder, sosial posisjon, personlige erfaringer eller institusjonell tone for å fremstå mer legitim.

Forskerne sammenligner også med menneskeskrevne motargumenter fra samme miljø. De skriver at agentene snudde fordelingen på flere dimensjoner: mer autoritetsbruk, mer adversarial tilpasning og mer bruk av eksterne sitater enn erfaringsbasert forankring. Det betyr ikke at alle agentkommentarer var effektive. Men det viser at maskinene brukte en annen påvirkningsprofil enn menneskene.

Norske virksomheter bør lese dette som agentstyring

Denne saken treffer norske virksomheter på tre måter.

Først i kundedialog. Mange selskaper tester eller ruller ut AI-agenter i salg, support og rådgivning. Da må styringen dekke mer enn faktakontroll. Hvis en agent kan bruke persona, autoritet og psykologisk tilpasning for å øke gjennomslag, bør virksomheten ha klare grenser for hva som er akseptabel påvirkning.

Deretter i internbruk. AI-agenter som hjelper med ledelseskommunikasjon, HR, compliance eller krisehåndtering kan friste til å optimalisere for respons. Men det som øker responsrate kan samtidig redusere tillit hvis mottakeren ikke forstår hvem eller hva som snakker. Transparens blir ikke bare et juridisk spørsmål. Det blir en styringsmekanisme.

Til slutt i sikkerhet og omdømme. Skjulte AI-agenter kan brukes til sosial manipulering, opinionspåvirkning, svindel og intern påvirkning. Det gjør CISO-arbeidet mer sosialt enn teknisk. Overvåking av lenker og vedlegg er ikke nok hvis angrepet bygger troverdighet over tid gjennom dialog.

Disclosure alene er ikke nok

Studien peker på at merking av AI-innhold ikke nødvendigvis løser hele problemet. Det er viktig, men utilstrekkelig. Når troverdighet bygges gjennom identitet, autoritetsmarkører og mottakertilpasning, må kontrollene også se på adferdsmønsteret.

For virksomheter betyr det at agentpolicy bør inneholde konkrete regler: Ingen skjult agentbruk i påvirkningssituasjoner. Ingen fabrikkert identitet. Begrensninger på demografisk profilering. Logging av agentens instruksjoner og mål. Revisjon av hvordan agenten forsøker å etablere autoritet. Mulighet til å teste agenten mot uønskede overtalelsesstrategier før produksjon.

Dette er ikke byråkrati for byråkratiets skyld. Det er nødvendig hvis AI-agenter skal brukes i kanaler der tillit er selve produktet. Kundeservice, rådgivning, rekruttering, politisk kommunikasjon og intern endringsledelse tåler dårlig at mottakeren oppdager i etterkant at de ble påvirket av en syntetisk aktør med skjulte mål.

Den praktiske konklusjonen er kort: AI-agentstyring må flyttes fra modellnivå til interaksjonsnivå. Virksomheter må ikke bare spørre hvilken modell som brukes. De må spørre hvilken rolle agenten tar, hvilke data den bruker for å tilpasse seg, hvilke mål den optimaliserer for, og hvordan den bygger troverdighet.

Kilder og medier

Primærkilde: arXiv, «How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment», Kokil Jaidka og Saifuddin Ahmed, innsendt 3. juni 2026. https://arxiv.org/abs/2606.05256

Kildekreditering: arXiv / Kokil Jaidka og Saifuddin Ahmed.

Thumbnail: OpenAI Image 2 / hogby.ai.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken

AI-modellerGoogle AIGemini

Google gjør Gemini Flash raskere for agentarbeid

Google lanserer Gemini 3.6 Flash og 3.5 Flash-Lite med tydeligere fokus på hastighet, token-effektivitet og produksjonsklare AI-agenter.

24. juli 20264 min lesing

Google AI

Åpne saken