Hopp til hovedinnhold
 AI-nyheter, ferdig filtrert for ledere
SISTE:

Anthropic åpner Claude Security for Enterprise-kunder • Britisk AISI: GPT-5.5 når Mythos-nivå i cybertester • OpenAI åpner GPT-5.5-Cyber kun for utvalgte forsvarere

Anthropic viser Claude som bioinformatikk-partner, men med tydelig kontrollbehov
CIOCEOStyreAI StrategySecurity

Anthropic viser Claude som bioinformatikk-partner, men med tydelig kontrollbehov

JH
Joachim Høgby
29. april 202629. april 20264 min lesingKilde: Anthropic

Anthropic publiserte 29. april BioMysteryBench, en ny evaluering av hvor langt Claude er kommet i praktisk bioinformatikk.

Dette er ikke en vanlig modelltest med flervalgsoppgaver. BioMysteryBench består av 99 spørsmål laget av fageksperter på reelle bioinformatikkdata. Claude får arbeide i en container med vanlige bioinformatikkverktøy, mulighet til å installere pakker via pip og conda, og tilgang til databaser som NCBI og Ensembl.

Fakta: Anthropic skriver at dagens Claude-generasjoner er på nivå med menneskelige eksperter på flere oppgaver, og at de nyeste modellene løste mange problemer som et panel av eksperter ikke klarte. Etter kvalitetssikring satt Anthropic igjen med 76 menneskeløselige og 23 «human-difficult» oppgaver. På de vanskelige oppgavene nådde Claude Mythos Preview 30 prosent løsningsrate.

Det viktige for ledere er ikke tallet alene. Det viktige er at AI flytter seg fra tekstassistent til aktiv forskningsarbeider: den kan lese data, velge metode, skrive analyse, hente referanseressurser og kombinere flere spor før den svarer. For norske virksomheter innen helse, havbruk, industriell biotek, universiteter og offentlig FoU betyr det at AI-satsingen må eies som forskningsinfrastruktur, ikke som et sideprosjekt i IT.

Anthropic peker også på begrensningen. Når oppgavene var vanskelige, ble treffene mindre stabile. Opus 4.6 løste 86 prosent av sine menneskeløselige «treff» minst fire av fem ganger, men bare 44 prosent på de menneskevanskelige oppgavene. For Sonnet 4.6 falt tilsvarende stabilitet fra 75 til 22 prosent. Det er et tydelig governance-signal: en modell kan finne et svar en ekspert ikke finner, men svaret er ikke automatisk robust.

CIO-konsekvensen er konkret. Bygg lukkede forskningssandkasser med logging, datasporbarhet, godkjente verktøy, eksportkontroll og menneskelig fagansvar før slike agenter får bruke interne forskningsdata. Ikke mål verdien bare i spart tid. Mål reproduksjon, validering, kildebruk og om modellen faktisk endrer beslutningskvaliteten.

Styre- og CEO-konsekvensen er like tydelig. Hvis virksomheten har biologiske data, helsedata eller annen sensitiv FoU, bør AI-policyen oppdateres før forskerne tar egne verktøy i bruk. Dette handler både om produktivitet og risiko: feil konklusjoner, lekkasje av data, dual-use-problematikk og uklar IP kan bli like viktige som modellkostnad.

Vurdering: BioMysteryBench er et sterkt signal om at frontier-modeller blir relevante i spesialisert FoU. Det er ikke bevis for at AI kan erstatte forskere. Det er bevis for at ledere må etablere en kontrollert arbeidsflate der forskere, data, modeller og validering henger sammen.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.