Google DeepMind lance deux nouveaux modèles d'IA basés sur Gemini, conçus pour aider les robots à « effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant »

Le 13 mars 2025 à 10:57, par Anthony

224PARTAGES

Google DeepMind lance deux nouveaux modèles d'IA basés sur Gemini, conçus pour aider les robots à « effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant »

Google DeepMind a présenté deux nouveaux modèles d'intelligence artificielle (IA) : Gemini Robotics, son modèle basé sur Gemini 2.0 conçu pour la robotique, et Gemini Robotics-ER, un modèle Gemini doté d'une compréhension spatiale avancée. DeepMind a déclaré que ces deux modèles permettent à une variété de robots d'effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant.

L'avancée de DeepMind dans le domaine de la robotique s'inscrit dans le cadre d'une évolution plus large de l'industrie vers des systèmes d'IA capables de comprendre le monde physique et d'interagir avec lui. Le PDG de Nvidia, Jensen Huang, a décrit cette évolution comme la prochaine vague de l'IA, prédisant que les usines s'appuieront de plus en plus sur des robots dotés d'une IA avancée pour effectuer des tâches complexes.

DeepMind a récemment déclaré avoir fait des progrès dans la manière dont Gemini résout des problèmes complexes par le biais d'un raisonnement multimodal à travers le texte, les images, l'audio et la vidéo. Ce 12 mars 2025, grâce à ces nouveaux modèles, ces capacités sortent du monde numérique pour entrer dans le monde réel.

Gemini Robotics est un modèle vision-langage-action (VLA) avancé qui a été construit sur Gemini 2.0. Il ajoute les actions physiques comme nouvelle modalité de sortie afin de contrôler directement les robots. Gemini Robotics-ER offre quant à lui une compréhension spatiale avancée, permettant aux roboticiens d'exécuter leurs propres programmes en utilisant les capacités de raisonnement embarqué (ER) de Gemini.

Gemini Robotics : Le modèle vision-langage-action le plus avancé de Google

Pour être utiles et servir l'homme, les modèles d'IA pour la robotique doivent posséder trois qualités principales : ils doivent être généraux, c'est-à-dire capables de s'adapter à différentes situations ; ils doivent être interactifs, c'est-à-dire comprendre et répondre rapidement aux instructions ou aux changements dans leur environnement ; et ils doivent être dextres, c'est-à-dire capables de faire le genre de choses que l'homme peut généralement faire avec ses mains et ses doigts, comme manipuler des objets avec précaution.

Si les travaux antérieurs de Google ont montré des progrès dans ces domaines, Gemini Robotics représente une avancée substantielle en termes de performances sur ces trois axes, ce qui rapproche la société de robots véritablement polyvalents.

Généralité

Gemini Robotics s'appuie sur la compréhension du monde de Gemini pour s'adapter à des situations nouvelles et résoudre une grande variété de tâches, y compris des tâches qu'il n'a jamais vues auparavant au cours de sa formation. Gemini Robotics est également capable de gérer de nouveaux objets, des instructions diverses et de nouveaux environnements. Dans son rapport technique, Google montre qu'en moyenne, Gemini Robotics fait plus que doubler ses performances sur un critère de généralisation complet par rapport à d'autres modèles vision-langage-action à la pointe de la technologie.

Interactivité

Pour fonctionner dans notre monde physique et dynamique, les robots doivent être capables d'interagir de manière transparente avec les personnes et leur environnement, et de s'adapter aux changements à la volée.

Construit sur la base de Gemini 2.0, Gemini Robotics est intuitivement interactif. Il exploite les capacités avancées de compréhension du langage de Gemini et peut comprendre et répondre à des commandes formulées dans un langage courant et conversationnel, ainsi que dans différentes langues.

Gemini Robotics peut comprendre et répondre à un ensemble d'instructions en langage naturel beaucoup plus large que les modèles précédents de Google, en adaptant son comportement aux données fournies par l'utilisateur. Il surveille également en permanence son environnement, détecte les modifications de son environnement ou de ses instructions et adapte ses actions en conséquence. Ce type de contrôle, ou « dirigeabilité », peut aider les gens à mieux collaborer avec les assistants robotiques dans toute une série de contextes, de la maison au lieu de travail.

Dextérité

Selon Google, le troisième pilier de la construction d'un robot utile consiste à agir avec dextérité. De nombreuses tâches quotidiennes que les humains accomplissent sans effort requièrent des capacités motrices étonnamment fines et sont encore trop difficiles pour les robots. Gemini Robotics peut s'attaquer à des tâches extrêmement complexes, en plusieurs étapes, qui nécessitent une manipulation précise, comme le pliage d'un origami ou l'emballage d'un en-cas dans un sac Ziploc.

Des incarnations multiples

Les robots étant de toutes formes et de toutes tailles, Gemini Robotics a également été conçu pour s'adapter facilement à différents types de robots. Google a entraîné le modèle principalement sur des données provenant de la plateforme robotique à deux bras ALOHA 2, mais l'entreprise a également démontré qu'elle pouvait contrôler une plateforme à deux bras, basée sur les bras Franka utilisés dans de nombreux laboratoires universitaires. Gemini Robotics peut même être spécialisé pour des réalisations plus complexes, comme le robot humanoïde Apollo développé par Apptronik, dans le but d'accomplir des tâches du monde réel.

Améliorer la compréhension du monde de Gemini

Parallèlement à Gemini Robotics, Google introduit un modèle avancé de vision et de langage appelé Gemini Robotics-ER (abréviation de « embodied reasoning »). Ce modèle améliore la compréhension du monde de Gemini de manière nécessaire pour la robotique, en se concentrant particulièrement sur le raisonnement spatial, et permet aux roboticiens de le connecter à leurs contrôleurs de bas niveau existants.

Gemini Robotics-ER améliore considérablement les capacités existantes de Gemini 2.0, telles que le pointage et la détection 3D. En combinant le raisonnement spatial et les capacités de codage de Gemini, Gemini Robotics-ER peut instancier des capacités entièrement nouvelles à la volée. Par exemple, lorsqu'on lui montre une tasse à café, le modèle peut déterminer une prise appropriée à deux doigts pour la saisir par la poignée et une trajectoire sûre pour s'en approcher.

Gemini Robotics-ER peut exécuter toutes les étapes nécessaires pour contrôler un robot dès sa sortie de la boîte, y compris la perception, l'estimation de l'état, la compréhension de l'espace, la planification et la génération de code. Dans un tel contexte de bout en bout, le modèle atteint un taux de réussite de 2 à 3 fois supérieur à celui de Gemini 2.0, selon Google. Et lorsque la génération de code n'est pas suffisante, Gemini Robotics-ER peut même exploiter la puissance de l'apprentissage en contexte, en suivant les modèles d'une poignée de démonstrations humaines pour fournir une solution.

Faire progresser l'IA et la robotique de manière responsable

Alors que Google explore le potentiel permanent de l'IA et de la robotique, elle adopte une approche stratifiée et holistique de la sécurité dans ses recherches, depuis le contrôle moteur de bas niveau jusqu'à la compréhension sémantique de haut niveau.

La sécurité physique des robots et des personnes qui les entourent est une préoccupation de longue date, fondamentale dans la science de la robotique. C'est pourquoi les roboticiens ont mis en place des mesures de sécurité classiques telles que l'évitement des collisions, la limitation de l'ampleur des forces de contact et la garantie de la stabilité dynamique des robots mobiles. Gemini Robotics-ER peut être interfacé avec ces contrôleurs de sécurité de « bas niveau », spécifiques à chaque modèle particulier. En s'appuyant sur les fonctions de sécurité de base de Gemini, Google permet aux modèles de Gemini Robotics-ER de comprendre si une action potentielle peut être exécutée en toute sécurité dans un contexte donné, et de générer des réponses appropriées.

Pour faire avancer la recherche sur la sécurité robotique dans les universités et l'industrie, Google publie également un nouvel ensemble de données pour évaluer et améliorer la sécurité sémantique dans l'IA incarnée et la robotique. Dans des travaux antérieurs, Google a montré comment une Constitution du robot inspirée des Trois lois de la robotique d'Isaac Asimov pouvait aider à inciter un LLM à sélectionner des tâches plus sûres pour les robots. L'entreprise a depuis développé un cadre permettant de générer automatiquement des constitutions basées sur des données - des règles exprimées directement en langage naturel - afin d'orienter le comportement d'un robot. Ce cadre permettrait aux gens de créer, de modifier et d'appliquer des constitutions pour développer des robots plus sûrs et plus conformes aux valeurs humaines. Enfin, le nouvel ensemble de données ASIMOV aidera les chercheurs à mesurer rigoureusement les implications des actions robotiques en matière de sécurité dans des scénarios réels.

Pour mieux évaluer les implications sociétales de son travail, Google collabore également avec des experts de son équipe Développement et innovation responsables, ainsi qu'avec son Conseil pour la responsabilité et la sécurité, un groupe d'examen interne chargé de veiller à ce que l'entreprise développe des applications d'IA de manière responsable. Google consulte également des spécialistes externes sur les défis et les opportunités particuliers présentés par l'IA incarnée dans les applications robotiques.

Dans le cadre de ses efforts, Google DeepMind s'est associé à Apptronik pour construire des robots humanoïdes avec Gemini 2.0. L'unité de Google travaille également avec des testeurs de confiance pour guider l'avenir de Gemini Robotics-ER. Il s'agit notamment d'Agile Robots, d'Agility Robotics, de Boston Dynamics et d'Enchanted Tools.

Alors que le développement de la robotique pilotée par l'IA progresse, le sujet alimente également les débats en cours sur l'intelligence artificielle générale (AGI). Les chercheurs de Meta soutiennent que l'AGI ne verra le jour que si les systèmes d'IA sont incarnés dans un corps physique, ce qui leur permettra d'apprendre par le biais d'interactions avec le monde réel. Cette hypothèse a stimulé l'investissement dans la robotique humanoïde, bien qu'elle reste une idée contestée au sein de la communauté des chercheurs en IA.

Source : Rapport Gemini Robotics de Google DeepMind

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative de Google DeepMind crédible ou pertinente ?

Voir aussi :

L'IA a besoin d'un corps pour passer à l'étape suivante de l'IA générale (AGI), un corps est le seul moyen pour elle d'apprendre le monde par l'interaction, d'après les chercheurs d'Huawei

Google DeepMind présente des progrès dans la sécurité des robots d'IA avec une « constitution des robots », visant à garantir qu'ils ne représentent pas une menace mortelle

Aloha Unleashed de Google DeepMind repousserait les limites de la dextérité des robots, des inquiétudes persistantes sur sa capacité à s'adapter à des situations imprévues dans des environnements réels

Vous avez lu gratuitement 8 055 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google DeepMind lance deux nouveaux modèles d'IA basés sur Gemini, conçus pour aider les robots à « effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant »

Identifiant
Mot de passe

Mot de passe oublié ?