Actualités

Gemini Embedding 2 : Google réunit texte, images, vidéos et audio dans un seul espace vectoriel

Par La Rédaction ⏱ 3 min de lecture

Google DeepMind a publié Gemini Embedding 2, son premier modèle d’embedding nativement multimodal. Pour la première fois, texte, images, vidéos, audio et documents coexistent dans le même espace de représentation. Pour les développeurs qui construisent des applications IA, c’est une avancée concrète.

Ce qu’est un embedding, et pourquoi ca compte

Un embedding, c’est la façon dont un modèle d’IA représente une donnée sous forme de vecteur numérique. Jusqu’ici, il fallait un modèle différent pour le texte, un autre pour les images, un troisième pour l’audio. Gemini Embedding 2 unifie tout ça dans un seul espace commun.

Concrètement, vous pouvez passer une image et du texte dans le même modèle, et il comprend la relation sémantique entre les deux. Chercher une vidéo avec une description texte ? Trouver des documents similaires à partir d’une photo ? Tout devient possible en une seule requête, sans pipeline complexe à maintenir.

Les specifications techniques

Le modèle est disponible en Public Preview via l’API Gemini et Vertex AI. Il gere cinq types de donnees :

  • Texte : jusqu’a 8 192 tokens
  • Images : jusqu’a 6 images par requete (PNG et JPEG)
  • Videos : jusqu’a 120 secondes (MP4 et MOV)
  • Audio : ingestion native sans transcription intermediaire
  • Documents : PDFs jusqu’a 6 pages

Une particularite technique notable : Gemini Embedding 2 utilise le Matryoshka Representation Learning (MRL). Cette technique permet de reduire dynamiquement la dimensionnalite des vecteurs sans tout recalculer. Google recommande 3 072, 1 536 ou 768 dimensions selon l’equilibre cherche entre performance et couts de stockage.

Des benchmarks au-dessus des modeles concurrents

Google annonce que Gemini Embedding 2 surpasse les modeles leaders sur les taches texte, image et video. L’avantage principal est la couverture multimodale : aucun modele concurrent ne couvre autant de types de donnees dans un seul espace vectoriel commun.

Les premiers partenaires en acces anticipe utilisent deja la solution pour de la generation augmentee par recuperation (RAG), de la recherche semantique avancee et du clustering de donnees heterogenes.

Ce que ca change pour les applications reelles

Les embeddings multimodaux ouvrent la voie a des applications concretes qui n’existaient pas avant. Une recherche d’image par description vocale. Un moteur de recommandation qui comprend a la fois le texte et les visuels d’un produit. Un systeme RAG qui ingere des PDFs, des videos et des articles dans la meme base de connaissances.

Pour les equipes qui construisent des agents IA ou des systemes de recherche d’entreprise, Gemini Embedding 2 represente un accelerateur significatif. La complexite des pipelines multimodaux etait jusqu’ici l’un des freins a l’adoption industrielle de ces architectures. Google vient de simplifier considerablement l’equation.