CIO CISOCTOStyreAI AgentsAI SearchAgent GovernanceAI GovernanceModel EvaluationResearch AgentsRisikostyringKildekontrollEnterprise AIarXivThe Decoder

AI-søkeagenter stryker når hukommelsen ikke hjelper

Joachim Høgby

31. mai 202631. mai 20264 min lesingKilde: arXiv

Del

LinkedIn X Facebook E-post WhatsApp Telegram

En ny forskningsrapport på arXiv setter fingeren på et problem mange ledere undervurderer: En AI-agent med nettilgang er ikke nødvendigvis en god researcher. Den kan bruke nettet til å bekrefte det modellen allerede tror, i stedet for å lete systematisk etter eksterne bevis.

Rapporten heter «LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?» og er skrevet av forskere fra Harbin Institute of Technology og samarbeidspartnere. Den ble sendt inn 27. mai og ble omtalt på nytt søndag morgen av The Decoder. Funnene er spesielt relevante fordi stadig flere virksomheter bygger agenter som skal hente informasjon, vurdere leverandører, lese dokumentasjon, følge nyheter eller støtte beslutninger.

Forskerne kaller fenomenet Intrinsic Knowledge Dependence. Det betyr at agenten fortsatt lener seg tungt på kunnskap som ligger i modellen fra før, selv når den får tilgang til søkeverktøy. På BrowseComp-testen kunne agentene svare på opptil 44,5 prosent av spørsmålene uten verktøy. Mer enn halvparten av søkene ble ifølge rapporten laget fra hypoteser modellen selv hadde produsert, ikke fra spor agenten hadde funnet i kildene. Når forskerne fjernet bevis som støttet svaret, kunne agentene gjøre det dårligere enn en lukket modell uten søk.

Det er et hardt signal til alle som nå setter «agent med browser» på veikartet. Problemet er ikke at modellene aldri søker. Problemet er at søkeprosessen kan se mer etter bekreftelse enn etter oppdagelse. For en vanlig bruker kan det gi et pent svar med lenker. For en virksomhet kan det gi feil markedsanalyse, feil risikovurdering eller en innkjøpsbeslutning som ser dokumentert ut uten å være det.

For å teste dette introduserer rapporten LiveBrowseComp, en ny benchmark med 335 spørsmål skrevet av mennesker. Spørsmålene bygger på fakta publisert de siste 90 dagene før testen ble laget, hentet fra seks oppdaterte kilder og filtrert for å unngå globale hendelser alle modeller sannsynligvis har sett i treningsdata. Poenget er å måle om agenten faktisk kan finne ferske og mindre åpenbare fakta, ikke bare hente frem noe den allerede kan.

Resultatet er brutalt. Alle testede agenter ligger under 2 prosent i lukket-modell-presisjon på LiveBrowseComp. Når de får søk, faller poengene 25 til 40 prosentpoeng sammenlignet med BrowseComp. Modellrangeringene flytter seg også. Det betyr at en agent som ser sterk ut på en etablert statisk test, ikke nødvendigvis er sterk når den må finne fersk informasjon i sanntid.

For CIO og CISO er dette mer enn en akademisk detalj. Mange interne AI-prosjekter forutsetter at en agent kan undersøke web, dokumentarkiv, sakssystemer eller leverandørportaler og komme tilbake med et pålitelig sammendrag. Hvis agenten i praksis starter med en hypotese og bruker søk til å lete etter støtte, må kontrollene bygges annerledes.

Første tiltak er krav til kildebevis. En agent bør ikke bare levere konklusjon og lenker. Den bør vise hvilke kilder som faktisk endret svaret, hvilke søk som ble gjort, hvilke kilder som ble forkastet, og hvor usikkerheten ligger. Særlig i juridisk arbeid, sikkerhetsanalyse, innkjøp og økonomi bør virksomheten kunne skille mellom «agenten fant dette» og «agenten visste dette fra før».

Andre tiltak er ferskhetstesting. Egen eval bør inneholde spørsmål der svaret ikke finnes i modellens treningsdata. Det kan være interne policyendringer, nye leverandørvilkår, nylige sårbarheter, endringer i offentlige registre eller ferske tall fra drift. Hvis agenten ikke klarer slike oppgaver med sporbarhet, bør den ikke få en rolle i produksjonsnære beslutninger.

Tredje tiltak er rollebegrensning. Søkeagenter kan være gode til å skanne, foreslå og samle materiale. De bør være svakere betrodd når de alene skal avklare sannhet, compliance eller risiko. Der bør det være menneskelig kontroll, krav til primærkilder og klare regler for når agenten må si «ikke verifisert».

Rapporten treffer også leverandørmarkedet. Benchmark-resultater blir ofte brukt i salg, innkjøp og modellvalg. Hvis statiske tester belønner modellminne og ikke faktisk research, får kjøpere et skjevt bilde av kvaliteten. En enterprise-eval bør derfor måle arbeidsflyten virksomheten faktisk skal bruke: ferske kilder, interne systemer, kryssjekk, feilspor, sitering og beslutningsgrunnlag.

Konklusjonen er nøktern: AI-agenter blir ikke automatisk pålitelige av å få nettilgang. De trenger oppgaver, verktøy, evalueringssett og kontrollspor som tvinger dem til å lete etter bevis. Ellers får virksomheten en velformulert bekreftelsesmaskin. Det er greit for idédugnad. Det er svakt som styringssystem.

Kilder og medier

Primærkilde: arXiv, «LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?», sendt inn 27. mai 2026: https://arxiv.org/abs/2605.28721
Datasett: Hugging Face, LiveBrowseComp: https://huggingface.co/datasets/Forival/LiveBrowseComp
Mediekilde: The Decoder, «AI search agents often confirm what they already know instead of actually researching the web», publisert 31. mai 2026: https://the-decoder.com/ai-search-agents-often-confirm-what-they-already-know-instead-of-actually-researching-the-web/
Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

AICIOCISO

Artificial Analysis: Claude Opus 5 tar ledelsen på agentbenchmark

Artificial Analysis plasserer Claude Opus 5 øverst på AA-Briefcase for agentisk kunnskapsarbeid. Viktigst for ledere: bedre analyse, men lange kjøretider og høy innsats gjør styring avgjørende.

26. juli 20265 min lesing

Artificial Analysis

Åpne saken

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken