Britisk AISI: GPT-5.5 når Mythos-nivå i cybertester
UK AI Security Institute publiserte 30. april en evaluering av OpenAIs GPT-5.5-Cyber.
Det nye er ikke at OpenAI vil gi enkelte forsvarsmiljøer tilgang til modellen; det er allerede kjent. Det nye er at en uavhengig statlig evalueringsaktør nå setter tall på hvor langt offensive cyberkapabiliteter har kommet. AISI skriver at GPT-5.5 ligger på samme nivå som Anthropics Claude Mythos Preview i deres cybertester.
I ekspertoppgavene oppnådde GPT-5.5 en gjennomsnittlig pass rate på 71,4 prosent, mot 68,6 prosent for Mythos Preview, 52,4 prosent for GPT-5.4 og 48,6 prosent for Claude Opus 4.7. Testene dekker blant annet reverse engineering, webutnyttelse, kryptografi og realistiske sårbarheter i programvare.
AISI testet også modellen i «The Last Ones», en 32-stegs simulert bedriftsangrepskjede bygget med SpecterOps. Modellen fullførte kjeden i 2 av 10 forsøk ved et budsjett på 100 millioner tokens per forsøk. AISI anslår at en menneskelig ekspert ville brukt rundt 20 timer på samme scenario.
Dette er relevant for norske ledere fordi cyber-AI nå må behandles som en tilgangs- og driftsrisiko, ikke bare som et produktivitetsverktøy. Det påvirker hvem som får bruke hvilke modeller, hvilke miljøer modellene kan kobles til, og hvordan logger, godkjenninger og hendelseshåndtering skal fungere når AI-agenten selv kan kjede sammen funn, kode, legitimasjon og laterale bevegelser.
Fakta: AISI presiserer at testene er gjort i kontrollerte forskningsmiljøer og ikke nødvendigvis viser hva en vanlig bruker kan få modellen til å gjøre. Offentlige utrullinger har ekstra sikkerhetstiltak, overvåking og tilgangskontroller.
Likevel er risikobildet skarpere enn i en vanlig modell-lansering. AISI fant også et universelt jailbreak som utløste regelbrytende cyberinnhold på alle de ondsinnede cyberforespørslene OpenAI hadde levert til testen, inkludert i flertrinns agentoppsett. OpenAI gjorde deretter flere endringer i sikkerhetslaget, men AISI skriver at en konfigurasjonsfeil gjorde at instituttet ikke kunne verifisere den endelige konfigurasjonen.
Vurderingen: CIO, CISO og styre bør ikke vente på at slike modeller blir bredt tilgjengelige før de oppdaterer kontrollene. Start med tre praktiske grep: skill tydelig mellom vanlig AI-bruk og cyber-/kodeagenter, krev godkjenning før modeller får tilgang til repoer, CI/CD, sky-kontoer eller sikkerhetsverktøy, og mål loggingen mot hendelsesrespons – ikke bare compliance.
For virksomheter med kritisk infrastruktur, finans, helse eller store utviklingsmiljøer er dette også en innkjøpssak. Leverandører som tilbyr «AI for security» må dokumentere evalueringsdata, tilgangsstyring, misbruksmonitorering og rollback-prosedyrer. Hvis en modell kan fungere som en junior pentester på innsiden av miljøet, må den styres som en privilegert aktør.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.