CIO CEOStyreAI StrategySecurity

Anthropic viser Claude som bioinformatikk-partner, men med tydelig kontrollbehov

Joachim Høgby

29. april 202629. april 20264 min lesingKilde: Anthropic

Del

LinkedIn X Facebook E-post WhatsApp Telegram

Anthropic publiserte 29. april BioMysteryBench, en ny evaluering av hvor langt Claude er kommet i praktisk bioinformatikk.

Dette er ikke en vanlig modelltest med flervalgsoppgaver. BioMysteryBench består av 99 spørsmål laget av fageksperter på reelle bioinformatikkdata. Claude får arbeide i en container med vanlige bioinformatikkverktøy, mulighet til å installere pakker via pip og conda, og tilgang til databaser som NCBI og Ensembl.

Fakta: Anthropic skriver at dagens Claude-generasjoner er på nivå med menneskelige eksperter på flere oppgaver, og at de nyeste modellene løste mange problemer som et panel av eksperter ikke klarte. Etter kvalitetssikring satt Anthropic igjen med 76 menneskeløselige og 23 «human-difficult» oppgaver. På de vanskelige oppgavene nådde Claude Mythos Preview 30 prosent løsningsrate.

Det viktige for ledere er ikke tallet alene. Det viktige er at AI flytter seg fra tekstassistent til aktiv forskningsarbeider: den kan lese data, velge metode, skrive analyse, hente referanseressurser og kombinere flere spor før den svarer. For norske virksomheter innen helse, havbruk, industriell biotek, universiteter og offentlig FoU betyr det at AI-satsingen må eies som forskningsinfrastruktur, ikke som et sideprosjekt i IT.

Anthropic peker også på begrensningen. Når oppgavene var vanskelige, ble treffene mindre stabile. Opus 4.6 løste 86 prosent av sine menneskeløselige «treff» minst fire av fem ganger, men bare 44 prosent på de menneskevanskelige oppgavene. For Sonnet 4.6 falt tilsvarende stabilitet fra 75 til 22 prosent. Det er et tydelig governance-signal: en modell kan finne et svar en ekspert ikke finner, men svaret er ikke automatisk robust.

CIO-konsekvensen er konkret. Bygg lukkede forskningssandkasser med logging, datasporbarhet, godkjente verktøy, eksportkontroll og menneskelig fagansvar før slike agenter får bruke interne forskningsdata. Ikke mål verdien bare i spart tid. Mål reproduksjon, validering, kildebruk og om modellen faktisk endrer beslutningskvaliteten.

Styre- og CEO-konsekvensen er like tydelig. Hvis virksomheten har biologiske data, helsedata eller annen sensitiv FoU, bør AI-policyen oppdateres før forskerne tar egne verktøy i bruk. Dette handler både om produktivitet og risiko: feil konklusjoner, lekkasje av data, dual-use-problematikk og uklar IP kan bli like viktige som modellkostnad.

Vurdering: BioMysteryBench er et sterkt signal om at frontier-modeller blir relevante i spesialisert FoU. Det er ikke bevis for at AI kan erstatte forskere. Det er bevis for at ledere må etablere en kontrollert arbeidsflate der forskere, data, modeller og validering henger sammen.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.

Relaterte saker

Perplexity gjør agent-sikkerhet til endepunktkontroll

Breaking

CISOCIOAI-agenter

Perplexity gjør agent-sikkerhet til endepunktkontroll

Perplexity åpner Numbat, en sikkerhetspakke som overvåker og kan blokkere AI-agenters handlinger på klientmaskiner. For CISO-er flyttes agentrisiko fra modellvalg til endepunktstyring.

30. juli 20264 min lesing

Perplexity Research

Åpne saken

CISOCIOAI-sikkerhet

MIT: LLM-er blander roller og åpner for nye angrep

MIT Technology Review omtaler ICML-forskning som peker på rolleforvirring som en grunnfeil i LLM-sikkerhet. For ledere betyr det at agentkontroll må bygges rundt modellen, ikke bare inni den.

30. juli 20264 min lesing

MIT Technology Review

Åpne saken

CIOCEOMarkedsføring

Google gjør Lyria 3.5 mer produksjonsklar for AI-musikk

Google ruller ut Lyria 3.5 i Flow Music med bedre vokaler, lengre spor og mer kontroll. For ledere betyr det ny fart i kreativ produksjon, men også strengere styring av rettigheter og merkevare.

30. juli 20265 min lesing

Google

Åpne saken