
Google DeepMind a apporté une mise à jour majeure aux modèles d'IA qui permettent désormais aux robots de faire bien plus que simplement dézipper un sac. DeepMind a lancé Gemini Robotics 1.5 et Gemini Robotics-ER 1.5. L'entreprise affirme que les robots peuvent désormais utiliser l'IA pour effectuer des tâches complexes, tout en anticipant plusieurs étapes avant d'agir dans le monde réel. Les dernières mises à jour de l'IA de Google DeepMind permettent aux robots d'effectuer des tâches plus complexes, tout en ayant la possibilité d'utiliser Google Search pour recueillir davantage d'informations. Les robots pourront également apprendre les uns des autres.
En mars, Google DeepMind a présenté deux nouveaux modèles d'intelligence artificielle (IA) : Gemini Robotics, son modèle basé sur Gemini 2.0 conçu pour la robotique, et Gemini Robotics-ER, un modèle Gemini doté d'une compréhension spatiale avancée. DeepMind a déclaré que ces deux modèles permettent à une variété de robots d'effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant.
Google DeepMind ou simplement DeepMind, est un laboratoire de recherche britannique-américain spécialisé dans l'intelligence artificielle, filiale d'Alphabet Inc. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d'autres outils d'IA générative, tels que le modèle de conversion de texte en image Imagen, le modèle de conversion de texte en vidéo Veo et le modèle de conversion de texte en musique Lyria.
Récemment, Google DeepMind a apporté une mise à jour majeure aux modèles d'IA qui permettent désormais aux robots de faire bien plus que simplement dézipper un sac. L'entreprise affirme que les robots peuvent désormais utiliser l'IA pour effectuer des tâches complexes, tout en anticipant plusieurs étapes avant d'agir dans le monde réel. Google DeepMind a lancé Gemini Robotics 1.5 et Gemini Robotics-ER 1.5. Ce dernier est un modèle de raisonnement incarné capable de prendre des décisions complexes et d'interagir avec l'environnement réel. Ces deux nouveaux modèles sont des mises à jour des premiers modèles Gemini Robotics lancés en mars de cette année.
Carolina Parada, responsable de la robotique chez Google DeepMind, a déclaré que les robots peuvent désormais accomplir des tâches telles que trier le linge par couleurs claires et foncées, ou même faire une valise en fonction de la météo actuelle à Londres. De plus, les robots pourront désormais utiliser des outils numériques tels que Google Search pour obtenir plus d'informations sur n'importe quelle tâche. Par exemple, un robot peut effectuer une recherche sur le web pour comprendre les exigences spécifiques à un lieu donné en matière de tri des déchets, du compost et des matières recyclables.
Parada a admis que si les robots étaient auparavant très doués pour suivre des instructions, ils étaient limités à une seule tâche générale. « Grâce à cette mise à jour, nous passons désormais d'une simple instruction à une véritable compréhension et résolution de problèmes pour des tâches physiques », a-t-elle déclaré. Ainsi, lorsque vous donnez une commande au robot pour une tâche quelconque, celui-ci utilise d'abord Gemini Robotics-ER 1.5 pour comprendre son environnement et utilise des outils numériques tels que Google Search pour obtenir des informations. Le modèle convertit ensuite les informations en instructions en langage naturel pour Gemini Robotics 1.5. Une fois ce plan mis en œuvre, le robot peut alors accomplir la tâche qui lui a été confiée.
Mais ce n'est pas tout. Selon Google, les robots peuvent apprendre les uns des autres, même s'ils sont basés sur des configurations différentes. Google DeepMind a découvert que les tâches présentées à un robot ALOHA doté de deux bras mécaniques fonctionnaient aussi bien que sur un robot humanoïde Apptronik Apollo. « Cela nous permet deux choses : premièrement, contrôler des robots très différents, y compris un humanoïde, à l'aide d'un seul modèle », a déclaré Kanishka Rao, ingénieur chez Google DeepMind. « Deuxièmement, les compétences acquises sur un robot peuvent désormais être transférées à un autre robot. »
Cette annonce de Google rappelle les déclarations de Jensen Huang, fondateur et PDG de NVIDIA. En mars, Nvidia a annoncé Isaac GR00T N1, son premier modèle de fondation ouvert entièrement personnalisable, pour apporter des compétences et un raisonnement généralisés aux robots humanoïdes. Lors de l'annonce, la collaboration NVIDIA, Google DeepMind et Disney Research a été également dévoilée. Jensen Huang avait notamment affirmé : "L'ère de la robotique généraliste est arrivée. Avec le NVIDIA Isaac GR00T N1 et les nouveaux cadres de génération de données et d'apprentissage des robots, les développeurs robotiques du monde entier ouvriront la prochaine frontière de l'ère de l'IA."
Gemini Robotics 1.5 : débloquer des expériences agentives pour les tâches physiques
La plupart des tâches quotidiennes nécessitent des informations contextuelles et plusieurs étapes pour être accomplies, ce qui les rend particulièrement difficiles pour les robots actuels. Afin d'aider les robots à accomplir ce type de tâches complexes en plusieurs étapes, DeepMind a donc conçu deux modèles qui fonctionnent ensemble dans un cadre agentique.
Le modèle de raisonnement incarné, Gemini Robotics-ER 1.5, orchestre les activités d'un robot, à la manière d'un cerveau de haut niveau. Ce modèle excelle dans la planification et la prise de décisions logiques dans des environnements physiques. Il dispose d'une compréhension spatiale de pointe, interagit en langage naturel, évalue son succès et ses progrès, et peut appeler nativement des outils tels que Google Search pour rechercher des informations ou utiliser des fonctions tierces définies par l'utilisateur.
Gemini Robotics-ER 1.5 donne ensuite à Gemini Robotics 1.5 des instructions en langage naturel pour chaque étape, qui utilise sa vision et sa compréhension du langage pour effectuer directement les actions spécifiques. Gemini Robotics 1.5 aide également le robot à réfléchir à ses actions afin de mieux résoudre des tâches sémantiquement complexes, et peut même expliquer ses processus de réflexion en langage naturel, rendant ainsi ses décisions plus transparentes.
Ces deux modèles sont basés sur la famille de modèles Gemini et ont été affinés à l'aide de différents ensembles de données afin de se spécialiser dans leurs rôles respectifs. Lorsqu'ils sont combinés, ils améliorent la capacité du robot à généraliser à des tâches plus longues et à des environnements plus diversifiés.
Google DeepMind affirme notamment :
Gemini Robotics-ER 1.5 est le premier modèle de réflexion optimisé pour le raisonnement incarné. Il atteint des performances de pointe sur les benchmarks académiques et internes, inspirées par des cas d'utilisation réels issus de notre programme de testeurs de confiance. Nous avons évalué Gemini Robotics-ER 1.5 sur 15 benchmarks académiques, dont Embodied Reasoning Question Answering (ERQA) et Point-Bench, en mesurant les performances du modèle en matière de pointage, de réponse à des questions sur des images et de réponse à des questions sur des vidéos.


Voir aussi :



Vous avez lu gratuitement 517 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.