Cette annonce intervient à peine quelques jours après la publication par Google du modèle expérimental Gemini-Exp-1206, qui s'est emparé de la première place du classement Chatbot Arena en devancant GPT-4o d'OpenAI. Gemini-Exp-1206 est doté d'une fenêtre contextuelle de 2 millions de jetons et permet de traiter plus d'une heure de contenu vidéo. Il est également offert gratuitement par Google, et défie ainsi les offres payantes avancées d'OpenAI.
Au cours de l'année écoulée, Google a continué à faire des progrès incroyables dans le domaine de l'intelligence artificielle. Ce 11 décembre 2024, le premier modèle de la famille Gemini 2.0 est lancé : une version expérimentale de Gemini 2.0 Flash. Il s'agit du modèle de référence de Google, avec une faible latence et des performances améliorées, à la pointe de sa technologie, à grande échelle.
L'entreprise a également partagé les frontières de sa recherche agentique en présentant des prototypes utilisant les capacités multimodales natives de Gemini 2.0.
Sundar Pichai, PDG de Google et d'Alphabet, s'est exprimé sur le sujet :
L'information est au cœur du progrès humain. C'est la raison pour laquelle nous nous concentrons depuis plus de 26 ans sur notre mission, qui est d'organiser l'information mondiale et de la rendre accessible et utile. Et c'est pourquoi nous continuons à repousser les frontières de l'IA pour organiser cette information à travers chaque entrée et la rendre accessible via n'importe quelle sortie, afin qu'elle puisse vous être vraiment utile.
Telle était notre vision lorsque nous avons présenté Gemini 1.0 en décembre dernier. Premier modèle conçu pour être nativement multimodal, Gemini 1.0 et 1.5 ont permis de grandes avancées en matière de multimodalité et de contexte long pour comprendre l'information à travers le texte, la vidéo, les images, l'audio et le code, et en traiter beaucoup plus.
Aujourd'hui, des millions de développeurs construisent avec Gemini. Cela nous aide à réimaginer tous nos produits - y compris les sept d'entre eux qui comptent 2 milliards d'utilisateurs - et à en créer de nouveaux. NotebookLM est un excellent exemple de ce que la multimodalité et le contexte long peuvent permettre aux gens, et c'est pourquoi il est aimé par tant de personnes.
L'année dernière, nous avons investi dans le développement de modèles plus agentiques, c'est-à-dire capables de mieux comprendre le monde qui vous entoure, d'anticiper plusieurs étapes et d'agir en votre nom, sous votre supervision.
Aujourd'hui, nous sommes ravis de lancer notre nouvelle ère de modèles conçus pour cette nouvelle ère agentique : nous présentons Gemini 2.0, notre modèle le plus performant à ce jour. Grâce à de nouvelles avancées en matière de multimodalité - comme la sortie native d'images et de sons - et d'utilisation d'outils natifs, il nous permettra de construire de nouveaux agents d'IA qui nous rapprocheront de notre vision d'un assistant universel.
Nous mettons la version 2.0 entre les mains des développeurs et des testeurs de confiance dès aujourd'hui. Et nous travaillons rapidement pour l'intégrer dans nos produits, en commençant par Gemini et Search. À partir d'aujourd'hui, le modèle expérimental Gemini 2.0 Flash sera disponible pour tous les utilisateurs de Gemini. Nous lançons également une nouvelle fonctionnalité appelée Deep Research, qui utilise des capacités avancées de raisonnement et de contexte long pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports en votre nom. Elle est disponible dès aujourd'hui dans Gemini Advanced.
Aucun produit n'a été autant transformé par l'IA que Search. Nos aperçus d'IA touchent désormais 1 milliard de personnes, leur permettant de poser des questions d'un type entièrement nouveau - devenant rapidement l'une de nos fonctions de recherche les plus populaires. Dans une prochaine étape, nous apportons les capacités de raisonnement avancées de Gemini 2.0 aux aperçus d'IA afin de traiter des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé des tests limités cette semaine et nous les déploierons plus largement au début de l'année prochaine. Nous continuerons à proposer les aperçus IA dans d'autres pays et d'autres langues au cours de l'année prochaine.
Les avancées de Gemini 2.0 s'appuient sur des investissements réalisés au cours des dix dernières années dans notre approche complète et différenciée de l'innovation en matière d'IA. Elle s'appuie sur du matériel personnalisé tel que Trillium, notre TPU de sixième génération. Les TPU ont alimenté 100 % de l'entraînement et de l'inférence de Gemini 2.0, et aujourd'hui Trillium est généralement disponible pour les clients afin qu'ils puissent également construire avec.
Si Gemini 1.0 visait à organiser et à comprendre les informations, Gemini 2.0 vise à les rendre beaucoup plus utiles. J'ai hâte de voir ce que cette nouvelle ère nous apportera.
- Sundar
Telle était notre vision lorsque nous avons présenté Gemini 1.0 en décembre dernier. Premier modèle conçu pour être nativement multimodal, Gemini 1.0 et 1.5 ont permis de grandes avancées en matière de multimodalité et de contexte long pour comprendre l'information à travers le texte, la vidéo, les images, l'audio et le code, et en traiter beaucoup plus.
Aujourd'hui, des millions de développeurs construisent avec Gemini. Cela nous aide à réimaginer tous nos produits - y compris les sept d'entre eux qui comptent 2 milliards d'utilisateurs - et à en créer de nouveaux. NotebookLM est un excellent exemple de ce que la multimodalité et le contexte long peuvent permettre aux gens, et c'est pourquoi il est aimé par tant de personnes.
L'année dernière, nous avons investi dans le développement de modèles plus agentiques, c'est-à-dire capables de mieux comprendre le monde qui vous entoure, d'anticiper plusieurs étapes et d'agir en votre nom, sous votre supervision.
Aujourd'hui, nous sommes ravis de lancer notre nouvelle ère de modèles conçus pour cette nouvelle ère agentique : nous présentons Gemini 2.0, notre modèle le plus performant à ce jour. Grâce à de nouvelles avancées en matière de multimodalité - comme la sortie native d'images et de sons - et d'utilisation d'outils natifs, il nous permettra de construire de nouveaux agents d'IA qui nous rapprocheront de notre vision d'un assistant universel.
Nous mettons la version 2.0 entre les mains des développeurs et des testeurs de confiance dès aujourd'hui. Et nous travaillons rapidement pour l'intégrer dans nos produits, en commençant par Gemini et Search. À partir d'aujourd'hui, le modèle expérimental Gemini 2.0 Flash sera disponible pour tous les utilisateurs de Gemini. Nous lançons également une nouvelle fonctionnalité appelée Deep Research, qui utilise des capacités avancées de raisonnement et de contexte long pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports en votre nom. Elle est disponible dès aujourd'hui dans Gemini Advanced.
Aucun produit n'a été autant transformé par l'IA que Search. Nos aperçus d'IA touchent désormais 1 milliard de personnes, leur permettant de poser des questions d'un type entièrement nouveau - devenant rapidement l'une de nos fonctions de recherche les plus populaires. Dans une prochaine étape, nous apportons les capacités de raisonnement avancées de Gemini 2.0 aux aperçus d'IA afin de traiter des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé des tests limités cette semaine et nous les déploierons plus largement au début de l'année prochaine. Nous continuerons à proposer les aperçus IA dans d'autres pays et d'autres langues au cours de l'année prochaine.
Les avancées de Gemini 2.0 s'appuient sur des investissements réalisés au cours des dix dernières années dans notre approche complète et différenciée de l'innovation en matière d'IA. Elle s'appuie sur du matériel personnalisé tel que Trillium, notre TPU de sixième génération. Les TPU ont alimenté 100 % de l'entraînement et de l'inférence de Gemini 2.0, et aujourd'hui Trillium est généralement disponible pour les clients afin qu'ils puissent également construire avec.
Si Gemini 1.0 visait à organiser et à comprendre les informations, Gemini 2.0 vise à les rendre beaucoup plus utiles. J'ai hâte de voir ce que cette nouvelle ère nous apportera.
- Sundar
Gemini 2.0 Flash s'appuie sur le succès de 1.5 Flash, le modèle le plus populaire de Google pour les développeurs, avec des performances accrues et des temps de réponse tout aussi rapides. Notamment, Gemini 2.0 Flash surpasse même 1.5 Pro sur des benchmarks clés, avec une vitesse deux fois plus élevée.
Gemini 2.0 Flash est également doté de nouvelles fonctionnalités. Outre la prise en charge des entrées multimodales telles que les images, la vidéo et l'audio, 2.0 Flash prend désormais en charge les sorties multimodales telles que les images générées en mode natif mélangées à du texte et à de l'audio multilingue orientable de type texte-parole (TTS). Il peut également appeler en mode natif des outils tels que Google Search, l'exécution de code ainsi que des fonctions tierces définies par l'utilisateur.
L'objectif de Google est de mettre ses modèles entre les mains des utilisateurs rapidement et en toute sécurité. Au cours du mois dernier, les premières versions expérimentales de Gemini 2.0 ont été partagées, et les développeurs ont fait part de leurs commentaires positifs.
Gemini 2.0 Flash est disponible dès maintenant en tant que modèle expérimental pour les développeurs via l'API Gemini dans Google AI Studio et Vertex AI, avec une entrée multimodale et une sortie texte disponibles pour tous les développeurs, et une synthèse vocale et une génération d'images natives disponibles pour les partenaires ayant bénéficié d'un accès anticipé. La disponibilité générale suivra en janvier, ainsi que d'autres tailles de modèles.
Pour aider les développeurs à créer des applications dynamiques et interactives, une nouvelle interface de programmation multimodale en live est également disponible. Elle permet une saisie audio et vidéo en temps réel et la possibilité d'utiliser des outils multiples et combinés.
À partir d'aujourd'hui, les utilisateurs de Gemini peuvent accéder à une version optimisée pour le chat de Gemini 2.0 Flash expérimental en la sélectionnant dans la liste déroulante des modèles sur les ordinateurs de bureau et les sites Web mobiles, et elle sera bientôt disponible dans l'application mobile de Gemini. Avec ce nouveau modèle, les utilisateurs peuvent profiter d'un assistant Gemini encore plus utile.
Au début de l'année prochaine, Gemini 2.0 sera étendu à d'autres produits Google.
Débloquer les expériences agentiques avec Gemini 2.0
Les capacités d'action de l'interface utilisateur native de Gemini 2.0 Flash, ainsi que d'autres améliorations telles que le raisonnement multimodal, la compréhension du contexte long, le suivi et la planification d'instructions complexes, l'appel de fonctions compositionnelles, l'utilisation d'outils natifs et l'amélioration de la latence, fonctionnent de concert pour permettre une nouvelle classe d'expériences agentiques.
L'application pratique des agents d'IA est un domaine de recherche plein de possibilités passionnantes. Google explore cette nouvelle frontière avec une série de prototypes qui peuvent aider les gens à accomplir des tâches et à faire avancer les choses. Il s'agit notamment d'une mise à jour du projet Astra, le prototype de recherche de Google qui explore les capacités futures d'un assistant IA universel, du nouveau projet Mariner, qui explore l'avenir de l'interaction homme-agent, en commençant par le navigateur, et de Jules, un agent de code alimenté par l'IA qui peut aider les développeurs.
Google en est encore aux premiers stades de développement, mais l'entreprise se dit impatiente de voir comment les testeurs de confiance utilisent ces nouvelles capacités et quels enseignements il est possible d'en tirer, afin de les rendre plus largement disponibles dans les produits à l'avenir.
Projet Astra : des agents utilisant la compréhension multimodale dans le monde réel
Depuis la présentation du Projet Astra lors de la conférence I/O, Google a tiré des enseignements de l'expérience de testeurs de confiance qui l'ont utilisé sur des téléphones Android. Ces précieux commentaires ont aidé l'entreprise à mieux comprendre comment un assistant IA universel pourrait fonctionner dans la pratique, y compris les implications en matière de sécurité et d'éthique.
Les améliorations apportées à la dernière version construite avec Gemini 2.0 sont les suivantes :
- Amélioration des dialogues : Le Projet Astra est désormais capable de dialoguer dans plusieurs langues et dans des langues mixtes, avec une meilleure compréhension des accents et des mots peu courants.
- Utilisation de nouveaux outils : Avec Gemini 2.0, le Projet Astra peut utiliser Google Search, Lens et Maps, ce qui le rend plus utile en tant qu'assistant dans la vie de tous les jours.
- Meilleure mémoire : La capacité de mémorisation du Projet Astra a été améliorée, tout en permettant aux utilisateurs de garder le contrôle. Il dispose désormais de 10 minutes de mémoire en session et peut se souvenir de davantage de conversations que l'on a eues avec lui par le passé, ce qui permet de mieux le personnaliser.
- Amélioration de la latence : Grâce aux nouvelles capacités de diffusion en continu et à la compréhension audio native, l'agent peut comprendre le langage avec une latence à peu près équivalente à celle d'une conversation humaine.
Google s'efforce d'intégrer ce type de fonctionnalités à ses produits, tels que l'application Gemini, son assistant d'intelligence artificielle, ainsi qu'à d'autres facteurs de forme, comme les lunettes. Elle commence à étendre son programme de testeurs de confiance à un plus grand nombre de personnes, dont un petit groupe qui commencera bientôt à tester le projet Astra sur des prototypes de lunettes.
Projet Mariner : des agents qui peuvent aider à accomplir des tâches complexes
Le projet Mariner est un prototype de recherche précoce construit avec Gemini 2.0 qui explore l'avenir de l'interaction homme-agent, en commençant par le navigateur. En tant que prototype de recherche, il est capable de comprendre et de raisonner à travers les informations de l'écran du navigateur de l'utilisateur, y compris les pixels et les éléments web tels que le texte, le code, les images et les formulaires, puis d'utiliser ces informations via une extension Chrome expérimentale pour effectuer des tâches à votre place.
Lors de l'évaluation par rapport au benchmark WebVoyager, qui teste les performances des agents sur des tâches web réelles de bout en bout, le projet Mariner a obtenu un résultat de pointe de 83,5 % en travaillant avec un seul agent.
Il est encore tôt, mais le projet Mariner montre qu'il devient techniquement possible de naviguer dans un navigateur, même si ce n'est pas toujours précis et lent pour accomplir les tâches aujourd'hui, ce qui s'améliorera rapidement avec le temps.
Pour construire ce système de manière sûre et responsable, Google mène des recherches actives sur de nouveaux types de risques et de mesures d'atténuation, tout en gardant les humains dans la boucle. Par exemple, le projet Mariner ne peut taper, faire défiler ou cliquer que dans l'onglet actif du navigateur, et il demande aux utilisateurs une confirmation finale avant d'entreprendre certaines actions sensibles, comme un achat.
Des testeurs de confiance commencent à tester le projet Mariner à l'aide d'une extension Chrome expérimentale, et des discussions avec l'écosystème web sont en cours en parallèle.
Jules : des agents pour les développeurs
Google étudie la manière dont les agents d'IA peuvent aider les développeurs avec Jules - un agent de code expérimental alimenté par l'intelligence artificielle qui s'intègre directement dans un flux de travail GitHub. Il peut s'attaquer à un problème, développer un plan et l'exécuter, le tout sous la direction et la supervision d'un développeur. Cet effort s'inscrit dans l'objectif à long terme de Google de créer des agents d'IA utiles dans tous les domaines, y compris le codage.
Agents dans les jeux et autres domaines
Google DeepMind utilise depuis longtemps les jeux pour aider les modèles d'IA à mieux suivre les règles, la planification et la logique. La semaine dernière, par exemple, Google a présenté Genie 2, son modèle d'IA capable de créer une variété infinie de mondes 3D jouables, le tout à partir d'une seule image. S'appuyant sur cette tradition, l'entreprise a construit des agents utilisant Gemini 2.0 qui peuvent aider les utilisateurs à naviguer dans le monde virtuel des jeux vidéo. Il peut raisonner sur le jeu en se basant uniquement sur l'action à l'écran et proposer des suggestions sur ce qu'il faut faire ensuite dans le cadre d'une conversation en temps réel.
« Nous collaborons avec des développeurs de jeux de premier plan comme Supercell pour étudier le fonctionnement de ces agents, en testant leur capacité à interpréter les règles et les défis dans une gamme variée de jeux, des titres de stratégie comme "Clash of Clans" aux simulateurs d'agriculture comme "Hay Day" », a indiqué Google.
En plus d'agir comme des compagnons de jeu virtuels, ces agents peuvent même exploiter Google Search pour mettre les utilisateurs en contact avec la richesse des connaissances en matière de jeux sur le web.
En plus d'explorer les capacités des agents dans le monde virtuel, Google expérimente des agents qui peuvent aider dans le monde physique en appliquant les capacités de raisonnement spatial de Gemini 2.0 à la robotique.
Construire de manière responsable à l'ère agentique
Gemini 2.0 Flash et les prototypes de recherche de Google lui permettent de tester et d'expérimenter de nouvelles capacités à la pointe de la recherche sur l'IA, qui rendront à terme les produits Google plus utiles.
En développant ces nouvelles technologies, Google est conscient de la responsabilité qu'elles impliquent et des nombreuses questions que les agents d'intelligence artificielle soulèvent en matière de sûreté et de sécurité. C'est pourquoi elle adopte une approche exploratoire et progressive du développement, en menant des recherches sur plusieurs prototypes, en mettant en œuvre de manière itérative une formation à la sécurité, en travaillant avec des testeurs de confiance et des experts externes, et en procédant à des évaluations approfondies des risques, de la sécurité et de l'assurance.
Par exemple :
- Dans le cadre du processus de sécurité de Google, l'entreprise a travaillé avec son comité de responsabilité et de sécurité (RSC), son groupe d'examen interne de longue date, afin d'identifier et de comprendre les risques potentiels.
- Les capacités de raisonnement de Gemini 2.0 ont permis des avancées majeures dans l'approche de l'équipe rouge assistée par l'IA, y compris la capacité d'aller au-delà de la simple détection des risques pour générer automatiquement des évaluations et des données de formation afin de les atténuer. Cela signifie que Google peut optimiser plus efficacement le modèle pour la sécurité à l'échelle.
- La multimodalité de Gemini 2.0 augmentant la complexité des résultats potentiels, Google continuera d'évaluer et d'entraîner le modèle pour les entrées et sorties d'images et de sons afin d'améliorer la sécurité.
- Dans le cadre du projet Astra, les moyens d'éviter que les utilisateurs ne partagent involontairement des informations sensibles avec l'agent sont à l'étude, et des contrôles de confidentialité ont déjà été mis en place pour permettre aux utilisateurs d'effacer facilement des sessions. Google poursuit également ses recherches pour s'assurer que les agents d'intelligence artificielle constituent des sources d'information fiables et ne prennent pas de mesures involontaires au nom des utilisateurs.
- Avec le projet Mariner, Google s'efforce de faire en sorte que le modèle apprenne à donner la priorité aux instructions de l'utilisateur plutôt qu'aux tentatives d'injection d'invites par des tiers, afin d'identifier les instructions potentiellement malveillantes provenant de sources externes et d'empêcher toute utilisation abusive. Cela permet d'éviter que les utilisateurs ne soient exposés à des tentatives de fraude et d'hameçonnage par le biais d'instructions malveillantes dissimulées dans des courriels, des documents ou des sites web.
« Nous sommes convaincus que la seule façon de développer l'IA est d'être responsable dès le départ et nous continuerons à faire de la sécurité et de la responsabilité un élément clé de notre processus de développement de modèles au fur et à mesure que nous ferons évoluer nos modèles et nos agents », a indiqué Google.
Gemini 2.0, les agents IA et au-delà
Les publications d'aujourd'hui marquent un nouveau chapitre pour le modèle Gemini de Google. Avec la sortie de Gemini 2.0 Flash et la série de prototypes de recherche explorant les possibilités agentiques, l'entreprise a franchi une étape passionnante dans l'ère Gemini. Google a déclaré être impatient de continuer à explorer en toute sécurité toutes les nouvelles possibilités qui s'offrent à elle au fur et à mesure qu'elle avançons vers l'IAG.
Et vous ?
Que pensez-vous de Gemini 2.0 et de ses fonctionnalités ?
Trouvez-vous cette initiative de Google crédible ou pertinente ?
Voir aussi :
Google annonce deux nouveaux modèles IA Gemini, la réduction du prix de la version 1.5 Pro, l'augmentation des limites de taux, ainsi que la mise à jour des paramètres de filtre par défaut
L'IA Gemini de Google dispose désormais de sa propre application iPhone qui s'accompagne de la prise en charge Gemini Live, qui permet aux utilisateurs d'avoir des conversations naturelles avec le chatbot
Google lance Gemini Live, un chatbot d'IA à commande vocale gratuit pour les utilisateurs d'Android, Gemini Live permettrait d'avoir des conversations naturelles avec un assistant d'IA