SubQ lover å knekke AI-flaskehalsen: 12 millioner tokens og langt lavere kostnad
SubQ lover å knekke AI-flaskehalsen: 12 millioner tokens og langt lavere kostnad
Jeg kom over Subquadratic fordi selskapet plutselig dukket opp med en av de mer interessante AI-påstandene akkurat nå: Miami-startupen har kommet ut av stealth og hevder at de har bygget en ny type språkmodell som angriper en av de store flaskehalsene i moderne AI.
Påstanden er enkel å forstå, men vanskelig å bevise: Dagens transformer-modeller blir dyre når konteksten blir lang. Subquadratic hevder at deres første modell, SubQ 1M-Preview, bruker en fullt subkvadratisk arkitektur der kostnaden vokser langt mer kontrollert når kontekstvinduet blir større.
Hvis dette stemmer, er det ikke bare en ny modell. Det er et angrep på hele infrastrukturen vi har bygget rundt begrensningene i dagens modeller.
Problemet: attention blir dyrt
Moderne språkmodeller som GPT, Claude og Gemini bygger på transformer-arkitekturen. Kjernen er attention. Modellen vurderer hvordan tokens henger sammen med andre tokens i teksten.
Det er kraftig. Det er også dyrt.
Når en modell må sammenligne mange tokens med hverandre, vokser regnestykket raskt. Dobler du mengden kontekst, dobler du ikke bare arbeidet. I klassisk attention kan arbeid og minnebruk vokse omtrent kvadratisk. Derfor blir lange dokumenter, hele kodebaser, store kontraktsarkiv og lange møtehistorikker fort dyre og tunge å kjøre rett inn i modellen.
Det er grunnen til at så mye av AI-stacken i dag består av omveier: RAG, vektordatabaser, chunking, ranking, reranking, agent-routing og prompt-regler. Vi sender ikke alt til modellen. Vi prøver å finne det riktige lille utdraget først.
Det fungerer ofte godt nok. Men det er også skjørt.
Hva Subquadratic hevder
Subquadratic sier at SubQ 1M-Preview er den første språkmodellen bygget på en fullt subkvadratisk arkitektur. Selskapet kaller teknikken Subquadratic Sparse Attention, SSA.
Poenget er at modellen ikke skal gjøre alle token-til-token-sammenligninger. Den skal lære hvilke relasjoner som faktisk betyr noe, og bruke compute på dem. Ifølge selskapet er utvalget innholdsavhengig, altså basert på mening, ikke bare faste mønstre eller posisjon.
De konkrete påstandene er store:
- SubQ 1M-Preview skal ha 1 million tokens kontekst i privat beta.
- Selskapet viser til et forskningsresultat på opptil 12 millioner tokens.
- Ved 12 millioner tokens hevder de nesten 1.000 ganger lavere attention-compute enn andre frontier-modeller.
- De lanserer API, SubQ Code for kodebaser via CLI, og SubQ Search for langkontekst-søk.
- De har hentet 29 millioner dollar i seed-finansiering.
Subquadratic publiserer også benchmark-tall. De hevder 95 prosent på RULER 128K, omtrent på nivå med Claude Opus 4.6. På MRCR v2 oppgir de 65,9 for produksjonsmodellen, mens GPT-5.5 oppgis til 74 og Claude Opus 4.7 til 32,2. På SWE-Bench Verified oppgir de 81,8, marginalt over Claude Opus 4.6.
Det er sterke tall. Nesten for sterke til å svelges uten vann.
Hvorfor dette kan bli stort
Hvis SubQ faktisk gjør lang kontekst billig og stabil, flytter det en viktig grense.
Da kan AI-systemer lese hele kodebaser i én passering. Ikke bare relevante filer funnet av et søk. Hele repoet. De kan lese store kontraktssett, policyarkiv, teknisk dokumentasjon, supporthistorikk, ordredata og møtehistorikk uten å miste sammenheng i grensene mellom chunks.
For norske virksomheter er dette interessant fordi mange sitter på store mengder ustrukturert kunnskap i gamle systemer, dokumenter, e-poster, PDF-er og wiki-er. Dagens AI-løsninger bruker ofte mye energi på å hente riktig bit. En modell med reelt lang, billig og funksjonell kontekst kan gjøre mer av jobben direkte.
Det kan bety mindre RAG-infrastruktur. Færre skjøre pipelines. Mindre behov for agentorkestrering bare for å kompensere for at modellen ikke kan se nok.
Det er akkurat derfor dette er interessant for CIO-er. Ikke fordi én startup fra Miami plutselig skal bytte ut OpenAI, Anthropic eller Google. Men fordi dette peker på en mulig ny økonomi for AI-systemer.
Men her må vi være edru
Dette er også en nyhet der markedsføringen løper foran bevisene.
SubQ er lukket. Tilgangen er privat beta. Det finnes ikke en bred, uavhengig modellkortpakke ute ennå. Benchmarkene er smale og treffer akkurat områdene der en langkontekstmodell bør skinne: retrieval, lang kontekst og kode.
VentureBeat peker også på flere røde flagg som bør tas på alvor. Noen tester skal være kjørt få ganger på grunn av kostnad. Produksjonsmodellen ligger lavere enn forskningsresultatet på MRCR v2. Selskapet har bekreftet at de bruker åpne modellvekter som startpunkt. Og historien har ferske eksempler på selskaper som har lovet enorme kontekstvinduer uten at teknologien senere ble bredt bevist i markedet.
Det betyr ikke at dette er tull. Det betyr at dette er tidlig.
Riktig vurdering er: veldig interessant, men ikke kjøp fortellingen før uavhengige tester viser at modellen tåler reelle arbeidsflyter.
Hva ledere bør se etter
Det viktigste nå er ikke om SubQ vinner en benchmark. Det viktigste er om arkitekturen fungerer i praktiske enterprise-situasjoner.
Tre tester betyr mest:
- Kan modellen faktisk bruke hele konteksten, eller bare ta imot den?
Mange modeller har store kontekstvinduer på papiret. Det avgjørende er om de finner, kobler og resonnerer over informasjon langt ute i konteksten uten å bli ustabile.
- Blir kostnaden lav nok til produksjon?
En langkontekstmodell er bare nyttig hvis den kan kjøres ofte. Hvis hvert kall blir et budsjettmøte, havner teknologien i demo-skuffen.
- Kan virksomheten styre data, tilgang og logging?
Når hele kodebaser, avtaler eller historikk sendes inn i én modell, øker kravene til tilgangskontroll, logging, databehandleravtaler og policy. Lang kontekst gjør ikke governance mindre viktig. Den gjør den viktigere.
Min vurdering
Dette er en av de AI-nyhetene som er verdt å følge tett.
Ikke fordi Subquadratic allerede har bevist alt. Det har de ikke. Men fordi problemet de angriper er helt reelt. Kvadratisk scaling, dyre kontekstvinduer og skjør RAG-arkitektur er blant de største praktiske hindrene for AI i produksjon.
Hvis SubQ holder det de lover, kan det endre hvordan vi bygger AI-løsninger. Hele kodebaser, dokumentarkiv og lange arbeidsprosesser kan bli modellens normale arbeidsflate, ikke noe vi må klippe opp og lime sammen med stadig mer infrastruktur.
Men inntil uavhengige tester er ute, bør dette behandles som en sterk kandidat, ikke en konklusjon.
AI-bransjen trenger gjennombrudd i effektivitet mer enn enda en chatbot med litt bedre tone. SubQ kan være et slikt gjennombrudd. Eller det kan være nok en påminnelse om at store kontekstvinduer er enkle å markedsføre og vanskelige å bevise.
Uansett er signalet viktig: neste runde i AI-kappløpet handler ikke bare om smartere modeller. Den handler om hvem som kan gjøre intelligens billig nok, lang nok og stabil nok til ekte drift.
Kilder og medier
- Subquadratic: “Introducing SubQ: The First Fully Subquadratic LLM”, publisert 5. mai 2026. https://subq.ai/introducing-subq
- VentureBeat: “Miami startup Subquadratic claims 1,000x AI efficiency gain with SubQ model; researchers demand independent proof”, Michael Nuñez, publisert 5. mai 2026. https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof
- Illustrasjon/thumbnail: generert med OpenAI Image 2 for hogby.ai.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.