Google flytter multimodal AI ned på laptop
Google har lansert Gemma 4 12B, en åpen multimodal modell som er laget for å kjøre lokalt på vanlige kraftige PC-er og laptoper. Modellen ble annonsert 3. juni og plasserer seg mellom Googles minste edge-modeller og den større 26B MoE-modellen i Gemma 4-familien.
Det viktige er ikke bare størrelsen. Google beskriver Gemma 4 12B som en encoder-fri modell der bilde- og lydsignaler går direkte inn i språkmodellens ryggrad. Vanlige multimodale modeller bruker ofte egne encodere som oversetter bilde og lyd før teksten behandles. Det gir mer minnebruk, mer forsinkelse og flere komponenter å drifte. Google forsøker å kutte det mellomlaget.
Ifølge Google skal modellen kunne kjøre lokalt med 16 GB VRAM eller delt minne. Den er sluppet med Apache 2.0-lisens og støtte i utviklerøkosystemer som LM Studio, Ollama og Google AI Edge-verktøy. Google peker også på Multi-Token Prediction for lavere forsinkelse. På egne referanser sier selskapet at ytelsen nærmer seg 26B-modellen, men med under halvparten av minnefotavtrykket.
For norske virksomheter er dette en mer praktisk nyhet enn nok en modellrekord. Mange AI-prosjekter stopper ikke fordi modellen er for svak. De stopper fordi dataene ikke kan sendes ut, kostnadene er uforutsigbare, svartiden er for høy, eller fordi drift og sikkerhet ikke passer inn i eksisterende arkitektur. En modell som kan behandle tekst, bilde og lyd lokalt endrer regnestykket for flere brukstilfeller.
Det gjelder særlig der dataene er sensitive, men oppgaven er avgrenset. Eksempler er dokumentkontroll, teknisk feilsøking med bilder, lokal transkribering, støtteverktøy i felt, kvalitetskontroll og intern kunnskapssøk der rådata helst ikke skal forlate maskinen. For CISO og DPO betyr det ikke at risikoen forsvinner. Men risikoen flytter seg. Man får mindre eksponering mot eksterne API-er og mer ansvar for lokal modellstyring, logging, versjonering og tilgangskontroll.
For CIO og CTO er poenget enda mer konkret: AI-arkitekturen blir mer hybrid. Skyen er fortsatt riktig for tunge oppgaver, sentral styring og modeller som krever maksimal kvalitet. Lokale modeller kan ta de hyppige, sensitive eller kostnadsutsatte oppgavene. Det gir også en ny type FinOps-diskusjon. Spørsmålet blir ikke bare hvilken modell som er best, men hvor inferensen bør kjøre.
Gemma 4 12B kommer samtidig som flere leverandører dytter AI ut mot klientmaskiner, edge-enheter og lokale arbeidsflater. Perplexity har nettopp vist samme retning med hybrid inferens. NVIDIA, Microsoft og Google bygger alle rundt ideen om at agentarbeid ikke bare skjer i datasenteret. Det gjør lokale modeller til en del av sikkerhets- og leverandørstrategien, ikke et hobbyspor for utviklere.
Det er likevel grunn til å være nøktern. Google oppgir egne benchmark-sammenligninger, og reell ytelse må testes på egne oppgaver. Lokale modeller gir heller ikke automatisk bedre personvern hvis de kobles til dårlige agentløp, svake rettigheter eller ukontrollert lokal datatilgang. En lokal agent med tilgang til filer, mikrofon, skjermbilder og interne systemer kan gjøre skade uten å sende en eneste token til skyen.
Den praktiske anbefalingen er derfor å behandle Gemma 4 12B som et signal om modenhet, ikke som en ferdig standard. Lag en liten evalueringsløype. Test lokale multimodale oppgaver mot skybaserte alternativer. Mål kvalitet, svartid, kostnad, datalekkasje, logging og driftbarhet. Finn ut hvilke oppgaver som faktisk bør ligge lokalt.
For ledere er saken større enn én Google-modell. Markedet går mot en tredeling: store proprietære modeller i skyen, åpne modeller i kontrollerte miljøer og små til mellomstore modeller på klient og edge. Virksomheter som bare kjøper AI som en SaaS-funksjon, får mindre kontroll over denne fordelingen. Virksomheter som bygger en tydelig inferensstrategi, kan bruke hver modellklasse der den gir mest verdi.
Gemma 4 12B er dermed et nytt datapunkt i en raskt tydeligere retning: multimodal AI er på vei fra sentrale API-er til maskinene der arbeidet faktisk skjer. Det er bra for kostnad, svartid og datakontroll. Det krever også mer disiplin. Lokal AI må styres som produksjonsinfrastruktur, ikke som en app noen installerte fordi den var lett å laste ned.
Kilder og medier
- Primærkilde: Google, “Introducing Gemma 4 12B: a unified, encoder-free multimodal model”, publisert 3. juni 2026: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
- Modellkort/kryssjekk: Google DeepMind på Hugging Face, Gemma 4 12B: https://huggingface.co/google/gemma-4-12B-it
- Thumbnail: OpenAI Image 2 / hogby.ai
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.