IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google DeepMind lance deux nouveaux modèles d'IA basés sur Gemini, conçus pour aider les robots à « effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant »

Le , par Anthony

155PARTAGES

9  0 
Google DeepMind a présenté deux nouveaux modèles d'intelligence artificielle (IA) : Gemini Robotics, son modèle basé sur Gemini 2.0 conçu pour la robotique, et Gemini Robotics-ER, un modèle Gemini doté d'une compréhension spatiale avancée. DeepMind a déclaré que ces deux modèles permettent à une variété de robots d'effectuer un plus grand nombre de tâches dans le monde réel comme jamais auparavant.

L'avancée de DeepMind dans le domaine de la robotique s'inscrit dans le cadre d'une évolution plus large de l'industrie vers des systèmes d'IA capables de comprendre le monde physique et d'interagir avec lui. Le PDG de Nvidia, Jensen Huang, a décrit cette évolution comme la prochaine vague de l'IA, prédisant que les usines s'appuieront de plus en plus sur des robots dotés d'une IA avancée pour effectuer des tâches complexes.

DeepMind a récemment déclaré avoir fait des progrès dans la manière dont Gemini résout des problèmes complexes par le biais d'un raisonnement multimodal à travers le texte, les images, l'audio et la vidéo. Ce 12 mars 2025, grâce à ces nouveaux modèles, ces capacités sortent du monde numérique pour entrer dans le monde réel.

Gemini Robotics est un modèle vision-langage-action (VLA) avancé qui a été construit sur Gemini 2.0. Il ajoute les actions physiques comme nouvelle modalité de sortie afin de contrôler directement les robots. Gemini Robotics-ER offre quant à lui une compréhension spatiale avancée, permettant aux roboticiens d'exécuter leurs propres programmes en utilisant les capacités de raisonnement embarqué (ER) de Gemini.


Gemini Robotics : Le modèle vision-langage-action le plus avancé de Google

Pour être utiles et servir l'homme, les modèles d'IA pour la robotique doivent posséder trois qualités principales : ils doivent être généraux, c'est-à-dire capables de s'adapter à différentes situations ; ils doivent être interactifs, c'est-à-dire comprendre et répondre rapidement aux instructions ou aux changements dans leur environnement ; et ils doivent être dextres, c'est-à-dire capables de faire le genre de choses que l'homme peut généralement faire avec ses mains et ses doigts, comme manipuler des objets avec précaution.

Si les travaux antérieurs de Google ont montré des progrès dans ces domaines, Gemini Robotics représente une avancée substantielle en termes de performances sur ces trois axes, ce qui rapproche la société de robots véritablement polyvalents.

Généralité

Gemini Robotics s'appuie sur la compréhension du monde de Gemini pour s'adapter à des situations nouvelles et résoudre une grande variété de tâches, y compris des tâches qu'il n'a jamais vues auparavant au cours de sa formation. Gemini Robotics est également capable de gérer de nouveaux objets, des instructions diverses et de nouveaux environnements. Dans son rapport technique, Google montre qu'en moyenne, Gemini Robotics fait plus que doubler ses performances sur un critère de généralisation complet par rapport à d'autres modèles vision-langage-action à la pointe de la technologie.


Interactivité

Pour fonctionner dans notre monde physique et dynamique, les robots doivent être capables d'interagir de manière transparente avec les personnes et leur environnement, et de s'adapter aux changements à la volée.

Construit sur la base de Gemini 2.0, Gemini Robotics est intuitivement interactif. Il exploite les capacités avancées de compréhension du langage de Gemini et peut comprendre et répondre à des commandes formulées dans un langage courant et conversationnel, ainsi que dans différentes langues.

Gemini Robotics peut comprendre et répondre à un ensemble d'instructions en langage naturel beaucoup plus large que les modèles précédents de Google, en adaptant son comportement aux données fournies par l'utilisateur. Il surveille également en permanence son environnement, détecte les modifications de son environnement ou de ses instructions et adapte ses actions en conséquence. Ce type de contrôle, ou « dirigeabilité », peut aider les gens à mieux collaborer avec les assistants robotiques dans toute une série de contextes, de la maison au lieu de travail.


Dextérité

Selon Google, le troisième pilier de la construction d'un robot utile consiste à agir avec dextérité. De nombreuses tâches quotidiennes que les humains accomplissent sans effort requièrent des capacités motrices étonnamment fines et sont encore trop difficiles pour les robots. Gemini Robotics peut s'attaquer à des tâches extrêmement complexes, en plusieurs étapes, qui nécessitent une manipulation précise, comme le pliage d'un origami ou l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !