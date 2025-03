Google DeepMind lance deux nouveaux modèles d'IA basés sur Gemini, conçus pour aider les robots à « effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant »

Gemini Robotics : Le modèle vision-langage-action le plus avancé de Google

Généralité

Interactivité

Dextérité

Des incarnations multiples

Améliorer la compréhension du monde de Gemini

Faire progresser l'IA et la robotique de manière responsable

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

L'avancée de DeepMind dans le domaine de la robotique s'inscrit dans le cadre d'une évolution plus large de l'industrie vers des systèmes d'IA capables de comprendre le monde physique et d'interagir avec lui. Le PDG de Nvidia, Jensen Huang, a décrit cette évolution comme la prochaine vague de l'IA , prédisant que les usines s'appuieront de plus en plus sur des robots dotés d'une IA avancée pour effectuer des tâches complexes.DeepMind a récemment déclaré avoir fait des progrès dans la manière dont Gemini résout des problèmes complexes par le biais d'un raisonnement multimodal à travers le texte, les images, l'audio et la vidéo. Ce 12 mars 2025, grâce à ces nouveaux modèles, ces capacités sortent du monde numérique pour entrer dans le monde réel.Gemini Robotics est un modèle vision-langage-action (VLA) avancé qui a été construit sur Gemini 2.0. Il ajoute les actions physiques comme nouvelle modalité de sortie afin de contrôler directement les robots. Gemini Robotics-ER offre quant à lui une compréhension spatiale avancée, permettant aux roboticiens d'exécuter leurs propres programmes en utilisant les capacités de raisonnement embarqué (ER) de Gemini.Pour être utiles et servir l'homme, les modèles d'IA pour la robotique doivent posséder trois qualités principales : ils doivent être généraux, c'est-à-dire capables de s'adapter à différentes situations ; ils doivent être interactifs, c'est-à-dire comprendre et répondre rapidement aux instructions ou aux changements dans leur environnement ; et ils doivent être dextres, c'est-à-dire capables de faire le genre de choses que l'homme peut généralement faire avec ses mains et ses doigts, comme manipuler des objets avec précaution.Si les travaux antérieurs de Google ont montré des progrès dans ces domaines, Gemini Robotics représente une avancée substantielle en termes de performances sur ces trois axes, ce qui rapproche la société de robots véritablement polyvalents.Gemini Robotics s'appuie sur la compréhension du monde de Gemini pour s'adapter à des situations nouvelles et résoudre une grande variété de tâches, y compris des tâches qu'il n'a jamais vues auparavant au cours de sa formation. Gemini Robotics est également capable de gérer de nouveaux objets, des instructions diverses et de nouveaux environnements. Dans son rapport technique, Google montre qu'en moyenne, Gemini Robotics fait plus que doubler ses performances sur un critère de généralisation complet par rapport à d'autres modèles vision-langage-action à la pointe de la technologie.Pour fonctionner dans notre monde physique et dynamique, les robots doivent être capables d'interagir de manière transparente avec les personnes et leur environnement, et de s'adapter aux changements à la volée.Construit sur la base de Gemini 2.0, Gemini Robotics est intuitivement interactif. Il exploite les capacités avancées de compréhension du langage de Gemini et peut comprendre et répondre à des commandes formulées dans un langage courant et conversationnel, ainsi que dans différentes langues.Gemini Robotics peut comprendre et répondre à un ensemble d'instructions en langage naturel beaucoup plus large que les modèles précédents de Google, en adaptant son comportement aux données fournies par l'utilisateur. Il surveille également en permanence son environnement, détecte les modifications de son environnement ou de ses instructions et adapte ses actions en conséquence. Ce type de contrôle, ou « dirigeabilité », peut aider les gens à mieux collaborer avec les assistants robotiques dans toute une série de contextes, de la maison au lieu de travail.Selon Google, le troisième pilier de la construction d'un robot utile consiste à agir avec dextérité. De nombreuses tâches quotidiennes que les humains accomplissent sans effort requièrent des capacités motrices étonnamment fines et sont encore trop difficiles pour les robots. Gemini Robotics peut s'attaquer à des tâches extrêmement complexes, en plusieurs étapes, qui nécessitent une manipulation précise, comme le pliage d'un origami ou l'emballage d'un en-cas dans un sac Ziploc.Les robots étant de toutes formes et de toutes tailles, Gemini Robotics a également été conçu pour s'adapter facilement à différents types de robots. Google a entraîné le modèle principalement sur des données provenant de la plateforme robotique à deux bras ALOHA 2, mais l'entreprise a également démontré qu'elle pouvait contrôler une plateforme à deux bras, basée sur les bras Franka utilisés dans de nombreux laboratoires universitaires. Gemini Robotics peut même être spécialisé pour des réalisations plus complexes, comme le robot humanoïde Apollo développé par Apptronik, dans le but d'accomplir des tâches du monde réel.Parallèlement à Gemini Robotics, Google introduit un modèle avancé de vision et de langage appelé Gemini Robotics-ER (abréviation de « embodied reasoning »). Ce modèle améliore la compréhension du monde de Gemini de manière nécessaire pour la robotique, en se concentrant particulièrement sur le raisonnement spatial, et permet aux roboticiens de le connecter à leurs contrôleurs de bas niveau existants.Gemini Robotics-ER améliore considérablement les capacités existantes de Gemini 2.0, telles que le pointage et la détection 3D. En combinant le raisonnement spatial et les capacités de codage de Gemini, Gemini Robotics-ER peut instancier des capacités entièrement nouvelles à la volée. Par exemple, lorsqu'on lui montre une tasse à café, le modèle peut déterminer une prise appropriée à deux doigts pour la saisir par la poignée et une trajectoire sûre pour s'en approcher.Gemini Robotics-ER peut exécuter toutes les étapes nécessaires pour contrôler un robot dès sa sortie de la boîte, y compris la perception, l'estimation de l'état, la compréhension de l'espace, la planification et la génération de code. Dans un tel contexte de bout en bout, le modèle atteint un taux de réussite de 2 à 3 fois supérieur à celui de Gemini 2.0, selon Google. Et lorsque la génération de code n'est pas suffisante, Gemini Robotics-ER peut même exploiter la puissance de l'apprentissage en contexte, en suivant les modèles d'une poignée de démonstrations humaines pour fournir une solution.Alors que Google explore le potentiel permanent de l'IA et de la robotique, elle adopte une approche stratifiée et holistique de la sécurité dans ses recherches, depuis le contrôle moteur de bas niveau jusqu'à la compréhension sémantique de haut niveau.La sécurité physique des robots et des personnes qui les entourent est une préoccupation de longue date, fondamentale dans la science de la robotique. C'est pourquoi les roboticiens ont mis en place des mesures de sécurité classiques telles que l'évitement des collisions, la limitation de l'ampleur des forces de contact et la garantie de la stabilité dynamique des robots mobiles. Gemini Robotics-ER peut être interfacé avec ces contrôleurs de sécurité de « bas niveau », spécifiques à chaque modèle particulier. En s'appuyant sur les fonctions de sécurité de base de Gemini, Google permet aux modèles de Gemini Robotics-ER de comprendre si une action potentielle peut être exécutée en toute sécurité dans un contexte donné, et de générer des réponses appropriées.Pour faire avancer la recherche sur la sécurité robotique dans les universités et l'industrie, Google publie également un nouvel ensemble de données pour évaluer et améliorer la sécurité sémantique dans l'IA incarnée et la robotique. Dans des travaux antérieurs, Google a montré comment une Constitution...