CIO CISOCTODPOJuridiskStyreServiceNowHugging FaceVoice AgentsAI AgentsAgentic AIEnterprise AIAI GovernanceAI SecurityData GovernanceCustomer ServiceITSMHRBenchmarkingRisikostyringLeverandørstyring

ServiceNow gjør stemmeagenter testbare

Joachim Høgby

6. juni 20266. juni 20265 min lesingKilde: ServiceNow-AI / Hugging Face

Del

LinkedIn X Facebook E-post WhatsApp Telegram

ServiceNow har publisert EVA-Bench Data 2.0, et åpent datasett for testing av stemmeagenter i enterprise-prosesser. Det høres smalt ut. Det er det ikke. Stemmeagenter er på vei inn i kundeservice, IT-support, HR og helseadministrasjon, men mange virksomheter mangler fortsatt en praktisk måte å teste om agentene faktisk håndterer de domenene de skal operere i.

Den nye versjonen utvider EVA-Bench fra ett domene til tre: airline customer service management, enterprise IT service management og healthcare HR service delivery. Til sammen dekker datasettet 213 evalueringsscenarier og 121 verktøy. ServiceNow beskriver dette som omtrent fire ganger større scenariodekning enn første versjon.

Poenget er enkelt: en stemmeagent kan være god i en demo og svak i drift. Den kan håndtere en bestilling i én bransje, men feile når den møter en policy, et kodenummer, en refusjonsregel eller et HR-unntak i en annen. ServiceNow skriver at feilene ofte er svært domenespesifikke. Det er akkurat derfor generelle modellbenchmarks gir for lite styringsverdi når virksomheter skal sette agenter foran kunder og ansatte.

EVA-Bench forsøker å teste det som faktisk skjer i en telefonsamtale. Datasettet er bygget rundt scenarioer der agenten må forstå brukerens intensjon, følge regler, bruke riktige verktøy og fullføre en prosess innenfor et domene. ServiceNow sier scenarioene er validert for løsbarhet mot tre frontier-modeller: OpenAI GPT-5.4, Google Gemini 3.1 Pro og Anthropic Claude Opus 4.6. Det gjør ikke benchmarken til en fasit, men det gir et mer realistisk utgangspunkt enn rene språkoppgaver.

For norske ledere er dette et nyttig signal. Mange virksomheter er ferdig med å spørre om AI-agenter kan svare pent. Nå handler spørsmålet om de kan håndtere prosesser med friksjon. Kan agenten skille mellom en kunde som vil endre en flyreise og en kunde som har krav på refusjon? Kan den forstå en intern IT-sak der brukeren beskriver symptomer feil? Kan den følge HR-regler uten å gi råd som bryter policy eller personvern?

Dette er særlig viktig for CISO, DPO og juridisk. En stemmeagent er ikke bare en chatbot med lyd. Den kan innhente persondata, tolke følsomme opplysninger, trigge arbeidsflyter og gi råd som brukeren oppfatter som autoritative. Hvis agenten er koblet til systemer for identitet, HR, kundedata eller saksbehandling, blir testregimet en del av virksomhetens kontrollmiljø.

ServiceNow peker også på et viktig skille mellom modell og system. En modell kan score høyt på generelle tester og likevel feile når den møter et konkret verktøysett, en intern policy eller en samtale der brukeren avbryter, omformulerer seg eller gir ufullstendig informasjon. Enterprise-agenter må derfor evalueres mot egne arbeidsflyter, ikke bare mot leverandørens modellscore.

Det bør få konsekvenser for innkjøp. Når en leverandør selger voice agents eller agentic service management, bør virksomheten be om scenariobasert dokumentasjon. Hvilke domener er testet? Hvilke verktøykall inngår? Hvordan måles feil? Hva skjer når agenten ikke vet? Hvordan håndteres flerspråklighet, dialekter, tall, navn og sensitive data? Og kan kunden selv legge inn egne scenarioer før produksjonssetting?

For norske virksomheter er flerspråklighet et undervurdert punkt. ServiceNow varsler en kommende flerspråklig utvidelse av EVA-Bench. Det er relevant fordi norske virksomheter ofte må støtte norsk, engelsk og noen ganger svensk, dansk eller polsk i samme driftsmiljø. En agent som fungerer på amerikansk engelsk i en demo, er ikke nødvendigvis klar for norsk kundeservice eller intern IT-support.

Den operative lærdommen er at agentprosjekter bør starte med evalueringsdesign, ikke bare integrasjonsdesign. Før man kobler en stemmeagent til produksjonssystemer, bør man definere hvilke scenarioer den må bestå, hvilke feil som er kritiske, og hvilke oppgaver den aldri skal løse alene. Det gir et bedre beslutningsgrunnlag enn pilotrapporter som måler tilfredshet etter noen få pene samtaler.

EVA-Bench er ikke en standard norske virksomheter kan lene seg blindt på. Datasettene er ikke norske, og healthcare HRSD er tydelig forankret i amerikanske systemer. Men formatet er viktig. Det viser hvordan enterprise AI beveger seg fra generell modelltesting til domene-, verktøy- og prosessnær evaluering. Det er der agentrisikoen faktisk ligger.

Dette er en sak for ledergruppen fordi stemmeagenter kan bli første AI-agent mange kunder og ansatte møter direkte. Da er terskelen for feil lav. En dårlig tekstassistent kan ignoreres. En stemmeagent i en serviceflyt kan skape feilregistrering, feil råd, brudd på policy eller tap av tillit på få minutter.

Virksomheter som planlegger stemmeagenter bør derfor kreve tre ting: egne testscenarioer før lansering, tydelige stoppunkter når agenten er usikker, og logging som gjør det mulig å ettergå både samtalen og verktøykallene. Uten det blir agenten en svart boks med hyggelig stemme. Det er ikke godt nok når den står i frontlinjen mot kunder og ansatte.

Kilder og medier

Primærkilde: ServiceNow-AI på Hugging Face, "EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios". Source: https://huggingface.co/blog/ServiceNow-AI/eva-bench-data Kildekreditering: ServiceNow-AI / Hugging Face. Thumbnail: OpenAI Image 2 / hogby.ai

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

AICIOCISO

Artificial Analysis: Claude Opus 5 tar ledelsen på agentbenchmark

Artificial Analysis plasserer Claude Opus 5 øverst på AA-Briefcase for agentisk kunnskapsarbeid. Viktigst for ledere: bedre analyse, men lange kjøretider og høy innsats gjør styring avgjørende.

26. juli 20265 min lesing

Artificial Analysis

Åpne saken

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Breaking

AI-modellerAnthropicClaude

Anthropic gjør Claude Opus 5 til ny toppmodell for agentarbeid

Claude Opus 5 flytter Anthropic-kampen fra ren intelligens til styrbar kost, fart og sikkerhet i agentarbeid. Det er en tydelig CIO-sak, ikke bare en modellnyhet.

24. juli 20265 min lesing

Anthropic

Åpne saken

CIOCISOCTO

GitHub ruller Claude Opus 5 inn i Copilot for agentisk koding

Claude Opus 5 er tilgjengelig i GitHub Copilot for Pro+, Max, Business og Enterprise. GitHub fremhever agentiske kodeflyter, egenverifisering og strengere cyber-sperrer. For IT-ledere blir modellvalg i Copilot et spørsmål om styring, kostnad og sikkerhet – ikke bare autocomplete.

24. juli 20265 min lesing

GitHub

Åpne saken