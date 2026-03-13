Google lance Gemini Embedding 2, son premier modèle d'intégration multimodal natif qui mappe du texte, des images, des vidéos, des fichiers audio et des documents dans un seul espace d'intégration

Nouvelles modalités et dimensions de sortie flexibles

Texte : prend en charge un contexte étendu pouvant contenir jusqu'à 8 192 jetons d'entrée

Images : capable de traiter jusqu'à 6 images par requête, prend en charge les formats PNG et JPEG

Vidéos : prend en charge jusqu'à 120 secondes d'entrée vidéo aux formats MP4 et MOV

Audio : ingère et intègre nativement les données audio sans avoir besoin de transcriptions textuelles intermédiaires

Documents : intègre directement des fichiers PDF pouvant compter jusqu'à 6 pages

Performances de pointe

Commencer à construire dès aujourd'hui

from google import genai from google.genai import types # For Vertex AI: # PROJECT_ID='<add_here>' # client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1') client = genai.Client() with open("example.png", "rb") as f: image_bytes = f.read() with open("sample.mp3", "rb") as f: audio_bytes = f.read() # Embed text, image, and audio result = client.models.embed_content( model="gemini-embedding-2-preview", contents=[ "What is the meaning of life?", types.Part.from_bytes( data=image_bytes, mime_type="image/png", ), types.Part.from_bytes( data=audio_bytes, mime_type="audio/mpeg", ), ], ) print(result.embeddings)



Gemini (également connu sous le nom de Google Gemini, anciennement Bard) est un chatbot d'intelligence artificielle (IA) générative et un assistant virtuel développé par Google. Il est alimenté par la famille de grands modèles de langage (LLM) du même nom, développée par Google DeepMind et annoncée le 6 décembre 2023, après avoir été précédemment basée sur LaMDA et PaLM 2.Google a lancé Gemini Embedding 2, son premier modèle d'intégration entièrement multimodal formé sur l'architecture Gemini. Ce nouveau modèle mappe le texte, les images, la vidéo, l'audio et les documents dans un espace d'intégration unique et unifié, et capture l'intention sémantique dans plus de 100 langues. Conçu pour une utilisation internationale à grande échelle, il simplifie les pipelines complexes et améliore une grande variété de tâches multimodales en aval, de la génération augmentée par récupération (RAG) et la recherche sémantique à l'analyse des sentiments et au clustering de données.Gemini Embedding 2 peut traiter plusieurs modalités dans une seule requête, ce qui permet des entrées entrelacées, comme des combinaisons d'images et de texte. Cette caractéristique lui permet de saisir les relations complexes et nuancées entre différents types de médias, offrant ainsi une compréhension plus précise des données complexes du monde réel.Le modèle est basé sur Gemini et exploite ses capacités de compréhension multimodale pour créer des intégrations de qualité dans les domaines suivants :Comme les modèles d'intégration précédents de Google, Gemini Embedding 2 intègre l'apprentissage par représentation Matryoshka (MRL), une technique qui « imbrique » les informations en mettant à l'échelle de manière dynamique les dimensions d'intégration. Cela permet une mise à l'échelle flexible des dimensions de sortie par rapport à la valeur par défaut de 3072, afin que les développeurs puissent trouver un équilibre entre performances et coûts de stockage. Google recommande d'utiliser les dimensions 3072, 1536 et 768 pour obtenir la meilleure qualité possible.Selon les évaluations internes de Google, Gemini Embedding 2 établit une nouvelle norme de performance en matière de profondeur multimodale, en introduisant de solides capacités vocales et en surpassant les modèles leaders dans les tâches liées au texte, à l'image et à la vidéo. Cette amélioration mesurable et cette couverture multimodale offrent aux développeurs ce dont ils ont besoin pour répondre à leurs divers besoins en matière d'intégration.Gemini Embedding 2 est actuellement disponible en avant-première publique via l'API Gemini et Vertex AI.Les développeurs peuvent apprendre à utiliser le modèle Gemini Embedding 2 dans les notebooks interactifs Gemini API et Vertex AI Colab de Google. Ils peuvent également l'utiliser via LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search.« En donnant un sens sémantique aux diverses données qui nous entourent, Gemini Embedding 2 fournit la base multimodale essentielle pour la prochaine génération d'expériences d'IA avancées. Nous sommes impatients de découvrir ce que vous allez créer », a déclaré Google.Quel est votre avis sur le sujet ?Que pensez-vous des fonctionnalités proposées par le modèle Gemini Embedding 2 ? Les trouvez-vous utiles et intéressantes ?