Microsoft lar GPT og Claude faktasjekke hverandre i ny Copilot Cowork
Microsoft lanserte i dag Copilot Cowork, en ny funksjon i Microsoft 365 som lar AI-agenter utføre langvarige, flerstegoppgaver autonomt. Den største nyheten er «Critique»-laget: OpenAIs GPT drafter et svar, deretter reviewer Anthropics Claude for nøyaktighet og korrekte kildehenvisninger. Rollene kan byttes, og en ny «Model Council»-funksjon lar brukere sammenligne svar fra begge modeller side om side.
Tilnærmingen ga 13,8 prosent forbedring på DRACO-benchmarken for Researcher-agenten. Microsoft kaller det et skritt mot mer pålitelig AI ved å la rivaliserende modeller kvalitetssikre hverandre, noe som reduserer hallusinasjoner.
Copilot Cowork er tilgjengelig gjennom Microsofts Frontier-program for tidlig tilgang. Brukere beskriver arbeidsflyten, og AI-en lager en plan og utfører oppgavene på tvers av Word, Excel, Outlook, Teams og SharePoint, mens mennesker kan overvåke og korrigere underveis.
For CIO-er betyr dette at multi-modell-strategien nå er en realitet i produktivitetsverktøy. Spørsmålet er om dette blir normen: AI-systemer som faktasjekker seg selv ved å bruke konkurrentenes modeller.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.