Un peu plus d'un an après la sortie de la version 1.0, Google vient d'annoncer la sortie de Gemini 2.0 comme son « nouveau modèle d'IA pour l'ère agentique ». Le premier modèle disponible est Gemini 2.0 Flash, qui « surpasse 1.5 Pro sur des benchmarks clés » - concernant le code, la factualité, les mathématiques, le raisonnement, et plus encore - à une vitesse deux fois supérieure.Cette annonce intervient à peine quelques jours après la publication par Google du modèle expérimental Gemini-Exp-1206, qui s'est emparé de la première place du classement Chatbot Arena en devancant GPT-4o d'OpenAI. Gemini-Exp-1206 est doté d'une fenêtre contextuelle de 2 millions de jetons et permet de traiter plus d'une heure de contenu vidéo. Il est également offert gratuitement par Google, et défie ainsi les offres payantes avancées d'OpenAI.
Au cours de l'année écoulée, Google a continué à faire des progrès incroyables dans le domaine de l'intelligence artificielle. Ce 11 décembre 2024, le premier modèle de la famille Gemini 2.0 est lancé : une version expérimentale de Gemini 2.0 Flash. Il s'agit du modèle de référence de Google, avec une faible latence et des performances améliorées, à la pointe de sa technologie, à grande échelle.
L'entreprise a également partagé les frontières de sa recherche agentique en présentant des prototypes utilisant les capacités multimodales natives de Gemini 2.0.
Sundar Pichai, PDG de Google et d'Alphabet, s'est exprimé sur le sujet :
L'information est au cœur du progrès humain. C'est la raison pour laquelle nous nous concentrons depuis plus de 26 ans sur notre mission, qui est d'organiser l'information mondiale et de la rendre accessible et utile. Et c'est pourquoi nous continuons à repousser les frontières de l'IA pour organiser cette information à travers chaque entrée et la rendre accessible via n'importe quelle sortie, afin qu'elle puisse vous être vraiment utile.
Telle était notre vision lorsque nous avons présenté Gemini 1.0 en décembre dernier. Premier modèle conçu pour être nativement multimodal, Gemini 1.0 et 1.5 ont permis de grandes avancées en matière de multimodalité et de contexte long pour comprendre l'information à travers le texte, la vidéo, les images, l'audio et le code, et en traiter beaucoup plus.
Aujourd'hui, des millions de développeurs construisent avec Gemini. Cela nous aide à réimaginer tous nos produits - y compris les sept d'entre eux qui comptent 2 milliards d'utilisateurs - et à en créer de nouveaux. NotebookLM est un excellent exemple de ce que la multimodalité et le contexte long peuvent permettre aux gens, et c'est pourquoi il est aimé par tant de personnes.
L'année dernière, nous avons investi dans le développement de modèles plus agentiques, c'est-à-dire capables de mieux comprendre le monde qui vous entoure, d'anticiper plusieurs étapes et d'agir en votre nom, sous votre supervision.
Aujourd'hui, nous sommes ravis de lancer notre nouvelle ère de modèles conçus pour cette nouvelle ère agentique : nous présentons Gemini 2.0, notre modèle le plus performant à ce jour. Grâce à de nouvelles avancées en matière de multimodalité - comme la sortie native d'images et de sons - et d'utilisation d'outils natifs, il nous permettra de construire de nouveaux agents d'IA qui nous rapprocheront de notre vision d'un assistant universel.
Nous mettons la version 2.0 entre les mains des développeurs et des testeurs de confiance dès aujourd'hui. Et nous travaillons rapidement pour l'intégrer dans nos produits, en commençant par Gemini et Search. À partir d'aujourd'hui, le modèle expérimental Gemini 2.0 Flash sera disponible pour tous les utilisateurs de Gemini. Nous lançons également une nouvelle fonctionnalité appelée Deep Research, qui utilise des capacités avancées de raisonnement et de contexte long pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports en votre nom. Elle est disponible dès aujourd'hui dans Gemini Advanced.
Aucun produit n'a été autant transformé par l'IA que Search. Nos aperçus d'IA touchent désormais 1 milliard de personnes, leur permettant de poser des questions d'un type entièrement nouveau - devenant rapidement l'une de nos fonctions de recherche les plus populaires. Dans une prochaine étape, nous apportons les capacités de raisonnement avancées de Gemini 2.0 aux aperçus d'IA afin de traiter des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé des tests limités cette semaine et nous les déploierons plus largement au début de l'année prochaine. Nous continuerons à proposer les aperçus IA dans d'autres pays et d'autres langues au cours de l'année prochaine.
Les avancées de Gemini 2.0 s'appuient sur des investissements réalisés au cours des dix dernières années dans notre approche complète et différenciée de l'innovation en matière d'IA. Elle s'appuie sur du matériel personnalisé tel que Trillium, notre TPU de sixième génération. Les TPU ont alimenté 100 % de l'entraînement et de l'inférence de Gemini 2.0, et aujourd'hui Trillium est généralement disponible pour les clients afin qu'ils puissent également construire avec.
Si Gemini 1.0 visait à organiser et à comprendre les informations, Gemini 2.0 vise à les rendre beaucoup plus utiles. J'ai hâte de voir ce que cette nouvelle ère nous apportera.
- Sundar
Gemini 2.0 Flash s'appuie sur le succès de 1.5 Flash, le modèle le plus populaire de Google pour les développeurs, avec des performances accrues et des temps de réponse tout aussi rapides. Notamment, Gemini 2.0 Flash surpasse même 1.5 Pro sur des benchmarks clés, avec une vitesse deux fois plus élevée.
Gemini 2.0 Flash est également doté de nouvelles fonctionnalités. Outre la prise en charge des entrées multimodales telles que les images, la vidéo et l'audio, 2.0 Flash prend désormais en charge les sorties multimodales telles que les images générées en mode natif mélangées à du texte et à de l'audio multilingue orientable de type texte-parole (TTS). Il peut également appeler en mode natif des outils tels que Google Search, l'exécution de code ainsi que des fonctions tierces définies par l'utilisateur.
L'objectif de Google est de mettre ses modèles entre les mains des utilisateurs rapidement et en toute sécurité. Au cours du mois dernier, les premières versions expérimentales de Gemini 2.0 ont été partagées, et les développeurs ont fait part de leurs commentaires positifs.
Gemini 2.0 Flash est disponible dès maintenant en tant que modèle expérimental pour les développeurs via l'API Gemini dans Google AI Studio et Vertex AI, avec une entrée multimodale et une sortie texte disponibles pour tous les développeurs, et une synthèse vocale et une génération d'images natives disponibles pour les partenaires ayant bénéficié d'un accès anticipé. La disponibilité générale suivra en janvier, ainsi que d'autres tailles de modèles.
Pour aider les développeurs à créer des applications dynamiques et interactives, une nouvelle interface de programmation multimodale en live est également disponible. Elle permet une saisie audio et vidéo en temps réel et la possibilité d'utiliser des outils multiples et combinés.
À partir d'aujourd'hui, les utilisateurs de Gemini peuvent accéder à une version optimisée pour le chat de Gemini 2.0 Flash expérimental en la sélectionnant dans la liste déroulante des modèles sur les ordinateurs de bureau et les sites Web mobiles, et elle sera bientôt disponible dans l'application mobile de Gemini. Avec ce nouveau modèle, les utilisateurs peuvent profiter d'un assistant Gemini encore plus utile.
Au début de l'année prochaine, Gemini 2.0 sera étendu à d'autres produits Google.
Débloquer les expériences agentiques avec Gemini 2.0
Les capacités d'action de l'interface...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


