Google lanserer Gemini Embedding 2: Én vektormodell for tekst, bilde, video og lyd
Google DeepMind har sluppet Gemini Embedding 2 i offentlig forhåndsvisning — selskapets første nativt multimodale embedding-modell som samler tekst, bilder, video, lyd og dokumenter i ett felles vektorrom.
Modellen ble lansert 10. mars 2026 og er tilgjengelig via Gemini API og Vertex AI. Den er bygd på Gemini-arkitekturen og er designet for å forenkle komplekse datapipelines der ulike modaliteter tradisjonelt har krevd separate modeller.
Gemini Embedding 2 støtter tekstinndata opp til 8192 tokens, opptil seks bilder per forespørsel i PNG og JPEG, opptil 120 sekunder video i MP4 og MOV, nativ lydinndata uten forhåndsbehandling og PDF-filer på opptil seks sider direkte.
Modellen inkorporerer Matryoshka Representation Learning, som gir fleksibel dimensjonsstørrelse på output med en standard på 3072. Det betyr at du kan justere vektordimensjonene etter behov for ulike lagre og søkesystemer.
For utviklere som bygger RAG-systemer, semantisk søk, sentimentanalyse og dataklustering over multimodale datasett, er dette en vesentlig forenkling. I stedet for å koble separate embedders for tekst og bilde kan én modell håndtere hele pipelinen.
For virksomheter som Wenaas som håndterer produktkatalog med bilder, tekniske spesifikasjoner og sertifiseringer, åpner en slik modell for å bygge søke- og anbefaltingssystemer som forstår sammenhengen mellom et bilde av et plagg og tilhørende tekstbeskrivelse og dokumentasjon i ett og samme søk.
📬 Likte du denne?
AI-nyheter for ledere. Kuratert av en CIO som bygger det selv. Daglig i innboksen.