AI-søkeagenter stryker når hukommelsen ikke hjelper
En ny forskningsrapport på arXiv setter fingeren på et problem mange ledere undervurderer: En AI-agent med nettilgang er ikke nødvendigvis en god researcher. Den kan bruke nettet til å bekrefte det modellen allerede tror, i stedet for å lete systematisk etter eksterne bevis.
Rapporten heter «LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?» og er skrevet av forskere fra Harbin Institute of Technology og samarbeidspartnere. Den ble sendt inn 27. mai og ble omtalt på nytt søndag morgen av The Decoder. Funnene er spesielt relevante fordi stadig flere virksomheter bygger agenter som skal hente informasjon, vurdere leverandører, lese dokumentasjon, følge nyheter eller støtte beslutninger.
Forskerne kaller fenomenet Intrinsic Knowledge Dependence. Det betyr at agenten fortsatt lener seg tungt på kunnskap som ligger i modellen fra før, selv når den får tilgang til søkeverktøy. På BrowseComp-testen kunne agentene svare på opptil 44,5 prosent av spørsmålene uten verktøy. Mer enn halvparten av søkene ble ifølge rapporten laget fra hypoteser modellen selv hadde produsert, ikke fra spor agenten hadde funnet i kildene. Når forskerne fjernet bevis som støttet svaret, kunne agentene gjøre det dårligere enn en lukket modell uten søk.
Det er et hardt signal til alle som nå setter «agent med browser» på veikartet. Problemet er ikke at modellene aldri søker. Problemet er at søkeprosessen kan se mer etter bekreftelse enn etter oppdagelse. For en vanlig bruker kan det gi et pent svar med lenker. For en virksomhet kan det gi feil markedsanalyse, feil risikovurdering eller en innkjøpsbeslutning som ser dokumentert ut uten å være det.
For å teste dette introduserer rapporten LiveBrowseComp, en ny benchmark med 335 spørsmål skrevet av mennesker. Spørsmålene bygger på fakta publisert de siste 90 dagene før testen ble laget, hentet fra seks oppdaterte kilder og filtrert for å unngå globale hendelser alle modeller sannsynligvis har sett i treningsdata. Poenget er å måle om agenten faktisk kan finne ferske og mindre åpenbare fakta, ikke bare hente frem noe den allerede kan.
Resultatet er brutalt. Alle testede agenter ligger under 2 prosent i lukket-modell-presisjon på LiveBrowseComp. Når de får søk, faller poengene 25 til 40 prosentpoeng sammenlignet med BrowseComp. Modellrangeringene flytter seg også. Det betyr at en agent som ser sterk ut på en etablert statisk test, ikke nødvendigvis er sterk når den må finne fersk informasjon i sanntid.
For CIO og CISO er dette mer enn en akademisk detalj. Mange interne AI-prosjekter forutsetter at en agent kan undersøke web, dokumentarkiv, sakssystemer eller leverandørportaler og komme tilbake med et pålitelig sammendrag. Hvis agenten i praksis starter med en hypotese og bruker søk til å lete etter støtte, må kontrollene bygges annerledes.
Første tiltak er krav til kildebevis. En agent bør ikke bare levere konklusjon og lenker. Den bør vise hvilke kilder som faktisk endret svaret, hvilke søk som ble gjort, hvilke kilder som ble forkastet, og hvor usikkerheten ligger. Særlig i juridisk arbeid, sikkerhetsanalyse, innkjøp og økonomi bør virksomheten kunne skille mellom «agenten fant dette» og «agenten visste dette fra før».
Andre tiltak er ferskhetstesting. Egen eval bør inneholde spørsmål der svaret ikke finnes i modellens treningsdata. Det kan være interne policyendringer, nye leverandørvilkår, nylige sårbarheter, endringer i offentlige registre eller ferske tall fra drift. Hvis agenten ikke klarer slike oppgaver med sporbarhet, bør den ikke få en rolle i produksjonsnære beslutninger.
Tredje tiltak er rollebegrensning. Søkeagenter kan være gode til å skanne, foreslå og samle materiale. De bør være svakere betrodd når de alene skal avklare sannhet, compliance eller risiko. Der bør det være menneskelig kontroll, krav til primærkilder og klare regler for når agenten må si «ikke verifisert».
Rapporten treffer også leverandørmarkedet. Benchmark-resultater blir ofte brukt i salg, innkjøp og modellvalg. Hvis statiske tester belønner modellminne og ikke faktisk research, får kjøpere et skjevt bilde av kvaliteten. En enterprise-eval bør derfor måle arbeidsflyten virksomheten faktisk skal bruke: ferske kilder, interne systemer, kryssjekk, feilspor, sitering og beslutningsgrunnlag.
Konklusjonen er nøktern: AI-agenter blir ikke automatisk pålitelige av å få nettilgang. De trenger oppgaver, verktøy, evalueringssett og kontrollspor som tvinger dem til å lete etter bevis. Ellers får virksomheten en velformulert bekreftelsesmaskin. Det er greit for idédugnad. Det er svakt som styringssystem.
Kilder og medier
- Primærkilde: arXiv, «LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?», sendt inn 27. mai 2026: https://arxiv.org/abs/2605.28721
- Datasett: Hugging Face, LiveBrowseComp: https://huggingface.co/datasets/Forival/LiveBrowseComp
- Mediekilde: The Decoder, «AI search agents often confirm what they already know instead of actually researching the web», publisert 31. mai 2026: https://the-decoder.com/ai-search-agents-often-confirm-what-they-already-know-instead-of-actually-researching-the-web/
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.