Hopp til hovedinnhold
Fredag 24. april 2026AI-nyheter, ferdig filtrert for ledere
SISTE:
DeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investeringDeepSeek åpner V4 Preview med 1M kontekst og API-kompatibilitetOpenAI lanserer GPT-5.5 for ChatGPT og CodexAnthropic og Amazon utvider AI-alliansen med 5 GW kapasitet og ny investering
Google lanserer Gemini 3.1 Flash Live: Sanntids AI-tale på 90+ språk
GoogleGeminiVoice AICIO

Google lanserer Gemini 3.1 Flash Live: Sanntids AI-tale på 90+ språk

JH
Joachim Høgby
27. mars 202627. mars 20264 min lesingKilde:

Google DeepMind lanserte 26. mars Gemini 3.1 Flash Live, en ny sanntids multimodal stemmemodell tilgjengelig i preview via Gemini Live API i Google AI Studio.

Modellen er Googles hittil mest avanserte for tale og lyd, og er designet for å eliminere forsinkelsene som har plaget tidligere voice AI-løsninger. I stedet for den tradisjonelle kjeden av stemmaktivitetsdeteksjon, transkripsjon, språkmodellgenerering og tekst-til-tale, behandler Gemini 3.1 Flash Live lyd direkte og kollapser hele stakken til én operasjon.

Nøkkelfunksjoner:

Modellen prosesserer akustiske nyanser i sanntid, gjenkjenner toneleie og tempo, og klarer seg godt i støyende omgivelser. Den støtter barge-in, altså at brukeren kan avbryte AI-en midt i en setning, akkurat som i en naturlig menneskelig samtale.

Gemini 3.1 Flash Live er fullstendig multimodal: den tar inn tekst, bilder, lyd og video, og produserer lyd og tekst som output. Videostrømmer behandles som sekvenser av JPEG- eller PNG-bilder.

Utviklere kan justere modellens resonneringsdybde via en thinkingLevel-parameter med fire nivåer: minimal, lav, medium og høy, for å balansere mellom responstid og problemløsingsevne.

Alle lydutganger er merket med Googles SynthID-vannmerke, en usynlig digital tag som hjelper til med å oppdage AI-generert lyd.

Global rekkevidde:

Modellen støtter over 90 språk og har muliggjort global utrulling av Search Live til over 200 land og territorier. Dette er Googles svar på den raskt voksende voice AI-sektoren, der konkurrenter som OpenAI og ElevenLabs presser grensene for sanntidsinteraksjon.

Hva dette betyr for CIOer:

For bedrifter som vurderer voice AI i kundeservice, intern assistanse eller flerspråklige støtteløsninger, representerer Gemini 3.1 Flash Live et betydelig teknologisk steg. Lav latens, 90+ språk og robusthet i støyende miljøer gjør modellen relevant for industrielle og logistikktunge operasjoner.

API-tilgang er nå tilgjengelig for utviklere via Google AI Studio.

📬 Likte du denne?

AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.