ServiceNow gjør stemmeagenter testbare
ServiceNow har publisert EVA-Bench Data 2.0, et åpent datasett for testing av stemmeagenter i enterprise-prosesser. Det høres smalt ut. Det er det ikke. Stemmeagenter er på vei inn i kundeservice, IT-support, HR og helseadministrasjon, men mange virksomheter mangler fortsatt en praktisk måte å teste om agentene faktisk håndterer de domenene de skal operere i.
Den nye versjonen utvider EVA-Bench fra ett domene til tre: airline customer service management, enterprise IT service management og healthcare HR service delivery. Til sammen dekker datasettet 213 evalueringsscenarier og 121 verktøy. ServiceNow beskriver dette som omtrent fire ganger større scenariodekning enn første versjon.
Poenget er enkelt: en stemmeagent kan være god i en demo og svak i drift. Den kan håndtere en bestilling i én bransje, men feile når den møter en policy, et kodenummer, en refusjonsregel eller et HR-unntak i en annen. ServiceNow skriver at feilene ofte er svært domenespesifikke. Det er akkurat derfor generelle modellbenchmarks gir for lite styringsverdi når virksomheter skal sette agenter foran kunder og ansatte.
EVA-Bench forsøker å teste det som faktisk skjer i en telefonsamtale. Datasettet er bygget rundt scenarioer der agenten må forstå brukerens intensjon, følge regler, bruke riktige verktøy og fullføre en prosess innenfor et domene. ServiceNow sier scenarioene er validert for løsbarhet mot tre frontier-modeller: OpenAI GPT-5.4, Google Gemini 3.1 Pro og Anthropic Claude Opus 4.6. Det gjør ikke benchmarken til en fasit, men det gir et mer realistisk utgangspunkt enn rene språkoppgaver.
For norske ledere er dette et nyttig signal. Mange virksomheter er ferdig med å spørre om AI-agenter kan svare pent. Nå handler spørsmålet om de kan håndtere prosesser med friksjon. Kan agenten skille mellom en kunde som vil endre en flyreise og en kunde som har krav på refusjon? Kan den forstå en intern IT-sak der brukeren beskriver symptomer feil? Kan den følge HR-regler uten å gi råd som bryter policy eller personvern?
Dette er særlig viktig for CISO, DPO og juridisk. En stemmeagent er ikke bare en chatbot med lyd. Den kan innhente persondata, tolke følsomme opplysninger, trigge arbeidsflyter og gi råd som brukeren oppfatter som autoritative. Hvis agenten er koblet til systemer for identitet, HR, kundedata eller saksbehandling, blir testregimet en del av virksomhetens kontrollmiljø.
ServiceNow peker også på et viktig skille mellom modell og system. En modell kan score høyt på generelle tester og likevel feile når den møter et konkret verktøysett, en intern policy eller en samtale der brukeren avbryter, omformulerer seg eller gir ufullstendig informasjon. Enterprise-agenter må derfor evalueres mot egne arbeidsflyter, ikke bare mot leverandørens modellscore.
Det bør få konsekvenser for innkjøp. Når en leverandør selger voice agents eller agentic service management, bør virksomheten be om scenariobasert dokumentasjon. Hvilke domener er testet? Hvilke verktøykall inngår? Hvordan måles feil? Hva skjer når agenten ikke vet? Hvordan håndteres flerspråklighet, dialekter, tall, navn og sensitive data? Og kan kunden selv legge inn egne scenarioer før produksjonssetting?
For norske virksomheter er flerspråklighet et undervurdert punkt. ServiceNow varsler en kommende flerspråklig utvidelse av EVA-Bench. Det er relevant fordi norske virksomheter ofte må støtte norsk, engelsk og noen ganger svensk, dansk eller polsk i samme driftsmiljø. En agent som fungerer på amerikansk engelsk i en demo, er ikke nødvendigvis klar for norsk kundeservice eller intern IT-support.
Den operative lærdommen er at agentprosjekter bør starte med evalueringsdesign, ikke bare integrasjonsdesign. Før man kobler en stemmeagent til produksjonssystemer, bør man definere hvilke scenarioer den må bestå, hvilke feil som er kritiske, og hvilke oppgaver den aldri skal løse alene. Det gir et bedre beslutningsgrunnlag enn pilotrapporter som måler tilfredshet etter noen få pene samtaler.
EVA-Bench er ikke en standard norske virksomheter kan lene seg blindt på. Datasettene er ikke norske, og healthcare HRSD er tydelig forankret i amerikanske systemer. Men formatet er viktig. Det viser hvordan enterprise AI beveger seg fra generell modelltesting til domene-, verktøy- og prosessnær evaluering. Det er der agentrisikoen faktisk ligger.
Dette er en sak for ledergruppen fordi stemmeagenter kan bli første AI-agent mange kunder og ansatte møter direkte. Da er terskelen for feil lav. En dårlig tekstassistent kan ignoreres. En stemmeagent i en serviceflyt kan skape feilregistrering, feil råd, brudd på policy eller tap av tillit på få minutter.
Virksomheter som planlegger stemmeagenter bør derfor kreve tre ting: egne testscenarioer før lansering, tydelige stoppunkter når agenten er usikker, og logging som gjør det mulig å ettergå både samtalen og verktøykallene. Uten det blir agenten en svart boks med hyggelig stemme. Det er ikke godt nok når den står i frontlinjen mot kunder og ansatte.
Kilder og medier
Primærkilde: ServiceNow-AI på Hugging Face, "EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios". Source: https://huggingface.co/blog/ServiceNow-AI/eva-bench-data Kildekreditering: ServiceNow-AI / Hugging Face. Thumbnail: OpenAI Image 2 / hogby.ai📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.