Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

OpenAI sender S-1 til SEC • Pentagon setter Alibaba og Baidu på militærliste • Anthropic lar Claude ta førstelinjen i analysearbeidet • Microsoft gjør Scout til desktop-agent i Frontier • Apple holder Siri AI tilbake i EU

Anthropic lar Claude ta førstelinjen i analysearbeidet
Breaking
CIOCISOCTOCFODPOStyreAnthropicClaudeClaude CodeAI AgentsAgentic AIEnterprise AIData AnalyticsBusiness IntelligenceData GovernanceAI GovernanceAI SecuritySemantic LayerEvalsMCPProduktivitetRisikostyringLeverandørstyringCompliance

Anthropic lar Claude ta førstelinjen i analysearbeidet

JH
Joachim Høgby
9. juni 20269. juni 20265 min lesingKilde: Anthropic

Anthropic har publisert en detaljert gjennomgang av hvordan selskapet bruker Claude til selvbetjent analyse internt. Tallene er uvanlig konkrete: Ifølge selskapet blir 95 prosent av forretningsanalytiske forespørsler automatisert med Claude, med rundt 95 prosent samlet treffsikkerhet.

Det viktigste er ikke prosenttallet alene. Det er hvordan Anthropic kom dit. Selskapet beskriver analyse med språkmodeller som et styringsproblem, ikke et SQL-problem. Modellen kan skrive spørringer. Det vanskelige er å vite hvilken definisjon, tabell, tidsperiode og forretningsregel som faktisk gjelder.

For ledere som vurderer AI i økonomi, salg, drift og rapportering, er dette en nyttig korreksjon. Det holder ikke å koble en chatbot til datavarehuset og håpe at den finner riktig svar. Den vil ofte finne et plausibelt svar. Det er ikke det samme som et korrekt svar.

Anthropic peker på tre hovedfeil. Den første er begrepsforvirring. Et ord som «aktive brukere» kan bety ulike ting på tvers av produkt, region, svindelfilter og tidsvindu. Den andre er foreldet kunnskap. Datakilder, definisjoner og skjemaer endres fortere enn dokumentasjonen. Den tredje er vanlig gjenfinningssvikt: riktig informasjon finnes, men agenten finner den ikke i et stort datamiljø.

Dette er kjernen i saken. Analytiske AI-agenter feiler sjelden fordi de ikke kan skrive SQL. De feiler fordi de ikke vet hva organisasjonen mener.

Fra datavarehus til styrt agentarbeid

Anthropic beskriver et lagdelt oppsett. Først kommer datagrunnlaget: kanoniske datasett, eierskap, semantiske definisjoner, testede transformasjoner og metadata. Målet er å redusere antallet plausible svar før agenten begynner å jobbe. Hvis «inntekt» kan peke mot førti tabeller, er agenten allerede i trøbbel. Hvis inntekt peker mot én styrt modell, er sjansen for korrekt analyse langt høyere.

Selskapet sier også at datakode, semantisk lag, referansedokumentasjon og sentrale dashboard-definisjoner ligger tett sammen i samme utviklingsløp. Endres en modell, skal dokumentasjonen og relevante skills oppdateres i samme pull request. Det er ikke pynt. Det er kontrollmekanismen som gjør at agenten ikke sakte sklir bort fra virkeligheten.

Neste lag er «sources of truth». Det omfatter semantisk lag, lineage, transformasjonsgraf, kuraterte analysedokumenter og forretningskontekst. Anthropic sier rett ut at de prøvde å gi agenten rå tilgang til store mengder historisk SQL fra dashboards, notebooks og analyser. Effekten var minimal. Informasjonen var ofte der, men agenten brukte den ikke riktig. Lærdommen er brutal og nyttig: mer tilgang er ikke det samme som bedre struktur.

For norske virksomheter er dette en direkte advarsel. Mange sitter allerede med et BI-miljø der samme nøkkeltall finnes i flere varianter. Hvis man legger en AI-agent oppå det uten å rydde først, får man bare raskere forvirring.

Skills gjorde utslaget

Den mest interessante delen er Anthropic sin bruk av Claude Skills. Selskapet skriver at Claude uten skills ikke kom over 21 prosent nøyaktighet i interne evalueringer for analyseforespørsler. Med skills kom treffsikkerheten konsekvent over 95 prosent samlet, og rundt 99 prosent i enkelte domener.

Skills fungerer som prosedyrekunnskap. De forteller agenten hvilke kilder som skal brukes i hvilken rekkefølge, når semantisk lag er obligatorisk, hvilke tabeller som er kanoniske, hvilke filtre som alltid må brukes, og hvilke spørsmål som må avklares før spørringen kjøres.

Dette er et viktig poeng for CIO-er og dataansvarlige. AI-agenten blir ikke god fordi den får «all data». Den blir god fordi den får en smalere, bedre styrt arbeidsflate. Den må tvinges til å bruke det semantiske laget først. Den må vite når rå SQL er en fallback. Den må vite hvilke begreper som krever avklaring. Og den må rapportere med kilde, ferskhet og tillitsnivå.

Anthropic beskriver også adversarial review som en del av flyten. En egen Claude-skill utfordrer antakelser og SQL før svar leveres. Det ga seks prosentpoeng høyere treffsikkerhet i eval-settet, men kostet 32 prosent flere tokens og 72 prosent høyere latenstid. Det er en ærlig tradeoff. For ledelsesrapportering og styremateriale kan ekstra kontroll være billig. For lavrisiko ad hoc-spørsmål kan det være overkill.

Evals, ikke magefølelse

Anthropic bruker offline-evalueringer med spørsmål og fasit for å teste agenten. Noen er hentet fra dashboards og validert av mennesker. Andre genereres fra forretningskontekst for å dekke langhale-spørsmål. Korrigeringer fra brukere blir nye testkandidater.

Selskapet lagrer eval-resultater som telemetri: skill-versjon, git-SHA, modell-ID, pass/fail, tokenbruk og kjøretid. Dermed blir forbedring målbar. En dokumentasjonsendring som «føles bedre» må vise bedre resultat på relevant eval-snitt.

Det er her mange lederprosjekter vil falle ned. De kjøper verktøy, kobler på data og måler aktivitet. Hvor mange spørsmål ble besvart? Hvor mye tid sparte vi? Det er nyttig, men utilstrekkelig. Den avgjørende målingen er hvor ofte svaret er riktig, og hvor ofte feil blir oppdaget før de sendes videre.

Anthropic erkjenner også den vanskelige feilen: stille feil. Svaret er galt, ser rimelig ut og brukes uten protest. Tiltakene er kildefotnoter, eksplisitt menneskelig godkjenning for lederkritiske svar og daglige sanity checks mot godkjente dashboards for de viktigste KPI-ene. Selskapet sier selv at dette ikke er fullgodt løst. Det er kanskje den mest troverdige delen av innlegget.

Hva norske ledere bør ta med seg

Dette er ikke en oppskrift på å fjerne analyseavdelingen. Det er en oppskrift på å flytte den. Mer arbeid skjer i design av datamodeller, styring, dokumentasjon, skills, evals og overvåking. Mindre arbeid går til repeterende spørsmål og engangsuttrekk.

For virksomheter med modne dataplattformer kan dette gi høy effekt de neste 12 til 18 månedene. Men forutsetningen er disiplin. Kanoniske datasett må finnes. Definisjoner må eies. Semantisk lag må prioriteres. Agenten må ha tilgangskontroll. Og svar som brukes i økonomi, risiko, HR eller styremateriale må ha en kontrollsløyfe.

For virksomheter uten dette grunnlaget er risikoen motsatt. AI gjør det lettere å produsere rapporter som ser profesjonelle ut, men bygger på feil tabell, feil filter eller feil definisjon. Det er ikke digitalisering. Det er rapporteringsrisiko med bedre språk.

Anthropic sitt poeng er derfor mer strategisk enn teknisk: Selvbetjent analyse med AI blir ikke et spørsmål om hvem som har den smarteste modellen. Det blir et spørsmål om hvem som har ryddet best i egne data, definisjoner og ansvarslinjer.

Kilder og medier

Primærkilde: Anthropic, «How Anthropic enables self-service data analytics with Claude», https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

Kildekreditering: Anthropic.

Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.