IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google lance Gemini Embedding 2, son premier modèle d'intégration multimodal natif qui mappe du texte, des images, des vidéos, des fichiers audio et des documents dans un seul espace d'intégration

Le , par Anthony

46PARTAGES

5  0 
Google lance Gemini Embedding 2, son premier modèle d'intégration multimodal natif qui mappe du texte, des images, des vidéos, des fichiers audio et des documents dans un seul espace d'intégration

Google a lancé Gemini Embedding 2, son premier modèle d'intégration entièrement multimodal capable de mapper du texte, des images, des vidéos, des fichiers audio et des documents dans un espace d'intégration unique. Ce modèle prend en charge plus de 100 langues et permet d'améliorer des tâches telles que la recherche sémantique, l'analyse des sentiments ou le partitionnement de données, offrant ainsi une recherche et une classification multimodales sur différents types de médias.

Gemini (également connu sous le nom de Google Gemini, anciennement Bard) est un chatbot d'intelligence artificielle (IA) générative et un assistant virtuel développé par Google. Il est alimenté par la famille de grands modèles de langage (LLM) du même nom, développée par Google DeepMind et annoncée le 6 décembre 2023, après avoir été précédemment basée sur LaMDA et PaLM 2.

Google a lancé Gemini Embedding 2, son premier modèle d'intégration entièrement multimodal formé sur l'architecture Gemini. Ce nouveau modèle mappe le texte, les images, la vidéo, l'audio et les documents dans un espace d'intégration unique et unifié, et capture l'intention sémantique dans plus de 100 langues. Conçu pour une utilisation internationale à grande échelle, il simplifie les pipelines complexes et améliore une grande variété de tâches multimodales en aval, de la génération augmentée par récupération (RAG) et la recherche sémantique à l'analyse des sentiments et au clustering de données.


Nouvelles modalités et dimensions de sortie flexibles

Gemini Embedding 2 peut traiter plusieurs modalités dans une seule requête, ce qui permet des entrées entrelacées, comme des combinaisons d'images et de texte. Cette caractéristique lui permet de saisir les relations complexes et nuancées entre différents types de médias, offrant ainsi une compréhension plus précise des données complexes du monde réel.


Le modèle est basé sur Gemini et exploite ses capacités de compréhension multimodale pour créer des intégrations de qualité dans les domaines suivants :

  • Texte : prend en charge un contexte étendu pouvant contenir jusqu'à 8 192 jetons d'entrée
  • Images : capable de traiter jusqu'à 6 images par requête, prend en charge les formats PNG et JPEG
  • Vidéos : prend en charge jusqu'à 120 secondes d'entrée vidéo aux formats MP4 et MOV
  • Audio : ingère et intègre nativement les données audio sans avoir besoin de transcriptions textuelles intermédiaires
  • Documents : intègre directement des fichiers PDF pouvant compter jusqu'à 6 pages

Comme les modèles d'intégration précédents de Google, Gemini Embedding 2 intègre l'apprentissage par représentation Matryoshka (MRL), une technique qui « imbrique » les informations en mettant à l'échelle de manière dynamique les dimensions d'intégration. Cela permet une mise à l'échelle flexible des dimensions de sortie par rapport à la valeur par défaut de 3072, afin que les développeurs puissent trouver un équilibre entre performances et coûts de stockage. Google recommande d'utiliser les dimensions 3072, 1536 et 768 pour obtenir la meilleure qualité possible.

Performances de pointe

Selon les évaluations internes de Google, Gemini Embedding 2 établit une nouvelle norme de performance en matière de profondeur multimodale, en introduisant de solides capacités vocales et en surpassant les modèles leaders dans les tâches liées au texte, à l'image et à la vidéo. Cette amélioration mesurable et cette couverture multimodale offrent aux développeurs ce dont ils ont besoin pour répondre à leurs divers besoins en matière d'intégration.


Commencer à construire dès aujourd'hui

Gemini Embedding 2 est actuellement disponible en avant-première publique via l'API Gemini et Vertex AI.

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

Les développeurs peuvent apprendre à utiliser le modèle Gemini Embedding 2 dans les notebooks interactifs Gemini API et Vertex AI Colab de Google. Ils peuvent également l'utiliser via LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search.

« En donnant un sens sémantique aux diverses données qui nous entourent, Gemini Embedding 2 fournit la base multimodale essentielle pour la prochaine génération d'expériences d'IA avancées. Nous sommes impatients de découvrir ce que vous allez créer », a déclaré Google.

Source : Google

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des fonctionnalités proposées par le modèle Gemini Embedding 2 ? Les trouvez-vous utiles et intéressantes ?

Voir aussi :

Google lance son tout dernier modèle d'IA, Gemini 3.1 Flash-Lite, conçu pour être le plus rapide et le plus rentable de la série Gemini 3

NVIDIA vient de lâcher une bombe : son nouveau modèle d'IA multimodale NVLM 1.0 72B est ouvert, massif et prêt à rivaliser avec GPT-4, le modèle est à poids ouvert avec une licence non commerciale cc-by-nc-4.0

Google annonce une mise à jour de son modèle d'IA Gemini 3 Deep Think afin qu'il puisse traiter des problèmes complexes du monde réel, il aurait atteint un score sans précédent de 84,6 % sur ARC-AGI-2
Vous avez lu gratuitement 2 412 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !