Google lanserer Gemini 3.1 Flash Live: Sanntids AI-tale på 90+ språk
Google DeepMind lanserte 26. mars Gemini 3.1 Flash Live, en ny sanntids multimodal stemmemodell tilgjengelig i preview via Gemini Live API i Google AI Studio.
Modellen er Googles hittil mest avanserte for tale og lyd, og er designet for å eliminere forsinkelsene som har plaget tidligere voice AI-løsninger. I stedet for den tradisjonelle kjeden av stemmaktivitetsdeteksjon, transkripsjon, språkmodellgenerering og tekst-til-tale, behandler Gemini 3.1 Flash Live lyd direkte og kollapser hele stakken til én operasjon.
Nøkkelfunksjoner:
Modellen prosesserer akustiske nyanser i sanntid, gjenkjenner toneleie og tempo, og klarer seg godt i støyende omgivelser. Den støtter barge-in, altså at brukeren kan avbryte AI-en midt i en setning, akkurat som i en naturlig menneskelig samtale.
Gemini 3.1 Flash Live er fullstendig multimodal: den tar inn tekst, bilder, lyd og video, og produserer lyd og tekst som output. Videostrømmer behandles som sekvenser av JPEG- eller PNG-bilder.
Utviklere kan justere modellens resonneringsdybde via en thinkingLevel-parameter med fire nivåer: minimal, lav, medium og høy, for å balansere mellom responstid og problemløsingsevne.
Alle lydutganger er merket med Googles SynthID-vannmerke, en usynlig digital tag som hjelper til med å oppdage AI-generert lyd.
Global rekkevidde:
Modellen støtter over 90 språk og har muliggjort global utrulling av Search Live til over 200 land og territorier. Dette er Googles svar på den raskt voksende voice AI-sektoren, der konkurrenter som OpenAI og ElevenLabs presser grensene for sanntidsinteraksjon.
Hva dette betyr for CIOer:
For bedrifter som vurderer voice AI i kundeservice, intern assistanse eller flerspråklige støtteløsninger, representerer Gemini 3.1 Flash Live et betydelig teknologisk steg. Lav latens, 90+ språk og robusthet i støyende miljøer gjør modellen relevant for industrielle og logistikktunge operasjoner.
API-tilgang er nå tilgjengelig for utviklere via Google AI Studio.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.