Microsoft trener agentferdigheter uten å røre modellvektene
Microsoft Research viser en ny måte å forbedre AI-agenter på: ikke ved å finjustere modellen, men ved å trene selve ferdighetsfilen agenten får med seg inn i arbeidet.
Metoden heter SkillOpt. Den behandler en kompakt tekstfil, typisk en Markdown-fil på noen hundre til et par tusen tokens, som agentens trenbare tilstand. Modellen ligger fast. Verktøyene ligger fast. Det som endres, er prosedyren agenten bruker for å hente bevis, bruke verktøy, validere svar og formatere resultatet.
Det høres mindre dramatisk ut enn nye modellslipp. For virksomheter kan det være mer praktisk. De fleste selskaper kommer ikke til å eie modellvektene. De kommer til å eie arbeidsflytene, policyene, ferdighetene, evalueringssettene og sporene som avgjør om en agent faktisk kan brukes i produksjon. SkillOpt peker rett inn i den delen av stacken.
I Microsofts beskrivelse kjøres agenten gjennom oppgaver. Resultatene brukes til refleksjon og avgrensede tekstendringer i ferdighetsdokumentet. En endring beholdes bare hvis den forbedrer resultatet på et holdt-tilbake valideringssett. Metoden har også et tekstlig læringsrate-budsjett, buffer for forkastede endringer og langsommere metaoppdateringer for å hindre at ferdigheten sklir ut.
Poenget er ikke at en Markdown-fil plutselig er magi. Poenget er at prosedyrekunnskap kan flyttes ut av modellen og inn i et kontrollerbart artefakt. Det er lettere å lese, versjonere, teste, signere og trekke tilbake enn en modellvekt.
Microsoft hevder sterke tall. På seks benchmarks, sju målmodeller og tre kjøremiljøer, direkte chat, Codex og Claude Code, skal SkillOpt være best eller delt best i alle 52 evaluerte kombinasjoner. På GPT-5.5 oppgir Microsoft en gjennomsnittlig løft fra ingen ferdighet på 23,5 prosentpoeng i direkte chat, 24,8 prosentpoeng i Codex-løkken og 19,1 prosentpoeng i Claude Code.
Slike benchmarktall må leses nøkternt. De sier ikke at alle interne agenter blir 20 prosentpoeng bedre mandag morgen. De sier at strukturerte ferdigheter kan gi store utslag på oppgaver med tydelige prosedyrer, verktøybruk og strenge formater. Det er nettopp der mange virksomheter prøver å bruke kodeagenter og kontoragenter nå: søk, regneark, dokumentanalyse, matematikk, QA og arbeid i apper.
Det strategiske signalet er derfor viktigere enn enkelttallet. Agentarbeid flytter seg fra promptkunst til drift av kunnskapsartefakter. Det blir en disiplin som ligner mer på software engineering: testsett, valideringsporter, regresjonstester, versjonskontroll og release-prosess.
For CIO betyr dette at ferdighetslaget bør behandles som kode. Hvis en agent får lov til å endre fakturaer, skrive pull requests eller hente data fra CRM, er det ikke nok å vite hvilken modell den bruker. Man må vite hvilken ferdighet som styrer den, hvilken versjon som er i produksjon, hvem som godkjente den og hvilke tester den besto.
For CISO er dette også en ny angrepsflate. En ferdighet kan inneholde gode sikkerhetsregler, men den kan også inneholde dårlige snarveier, skjulte instruksjoner eller for brede fullmakter. Når ferdigheter deles på tvers av team og kjøres i agenter med tilgang til repoer, terminaler og interne API-er, blir de en del av software supply chain. De må skannes, signeres og begrenses.
For økonomisiden er gevinsten mer konkret. Dersom en virksomhet kan forbedre agentkvalitet uten ny modellavtale, uten finjustering og uten mer inferenskost i runtime, blir optimering av arbeidsflyt en kostnadskontroll. Bedre ferdigheter kan gi færre mislykkede kjøringer, mindre menneskelig etterarbeid og lavere modellforbruk.
SkillOpt er fortsatt forskning og åpen kildekode, ikke en ferdig enterprise-plattform. Men mønsteret er lett å se. Microsoft, Anthropic, GitHub og OpenAI prøver alle å gjøre agentarbeid mer operasjonelt. Noen bygger runtime. Noen bygger policy. Noen bygger evaluer. SkillOpt legger seg i laget mellom modell og oppgave: en trenbar manual for agenten.
Det gjør også innkjøpsspørsmålet skarpere. Når leverandører selger agentplattformer, bør norske virksomheter ikke bare spørre om modellnavn og kontekstlengde. De bør spørre hvordan ferdigheter defineres, evalueres, lagres, oppdateres og rulles tilbake. De bør spørre om ferdigheter kan eksporteres, om de er lesbare, og om de kan kobles til egne testsett.
Det er her SkillOpt treffer lederagendaen. Ikke som en ny chatbotfunksjon, men som en påminnelse om hvor agentkonkurransen er på vei. Den som kontrollerer agentenes ferdigheter, kontrollerer mye av kvaliteten, risikoen og byttebarrieren.
For norske IT-ledere er første steg enkelt: lag et register over agentferdigheter på samme måte som man lager oversikt over integrasjoner og API-nøkler. Hvilke instrukser kjører i produksjon? Hvem eier dem? Hvilke data og verktøy kan de nå? Hvordan testes de etter modellbytte? Hvis svaret er uklart, har virksomheten allerede teknisk gjeld i agentlaget.
SkillOpt viser at dette laget kan trenes. Da må det også styres.
Kilder og medier
- Primærkilde: Microsoft Research, «SkillOpt: Executive Strategy for Self-Evolving Agent Skills» - https://www.microsoft.com/en-us/research/publication/skillopt-executive-strategy-for-self-evolving-agent-skills/
- Kode og prosjekt: Microsoft / GitHub - https://github.com/microsoft/SkillOpt
- Prosjektside med resultattabeller: Microsoft GitHub Pages - https://microsoft.github.io/SkillOpt/
- Mediedekning: The Decoder, 13. juni 2026 - https://the-decoder.com/microsofts-skillopt-boosts-gpt-5-5-by-using-nothing-but-a-trained-markdown-file/
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.