Visual-Robotics Bridge, un modèle qui permet aux robots de développer la capacité d'apprendre en regardant des vidéos,

Il utilise le concept d'affordance pour identifier la direction des mouvements

Le 23 juin 2023 à 12:49, par Bruno

20PARTAGES

Les chercheurs de l’Université Carnegie Mellon ont développé un modèle nommé Visual-Robotics Bridge (VRB) qui permet aux robots d’apprendre des tâches ménagères en regardant des vidéos de personnes effectuant des activités quotidiennes dans leurs maisons. Le modèle utilise le concept d’affordance pour identifier les points de contact et la direction des mouvements des objets. Les robots peuvent ainsi imiter les actions humaines dans des environnements variés.

Les chercheurs ont réussi à faire apprendre à deux robots 12 tâches différentes, comme ouvrir un tiroir, un four ou un couvercle, prendre une casserole sur le feu ou soulever un téléphone. Ce travail pourrait améliorer la façon dont les robots sont entraînés et leur permettre de profiter de la grande quantité de vidéos disponibles sur Internet.

Visual-Robotics Bridge se base sur le concept d’affordance, qui désigne la possibilité d’une action sur un objet en fonction du comportement humain. Par exemple, en regardant un humain ouvrir un tiroir, le robot identifie les points de contact (la poignée) et la direction du mouvement du tiroir (droit vers l’extérieur). Après avoir regardé plusieurs vidéos d’humains ouvrant des tiroirs, le robot peut déterminer comment ouvrir n’importe quel tiroir.

Le modèle VRB a plusieurs avantages par rapport aux méthodes actuelles d’entraînement des robots, qui nécessitent soit la démonstration manuelle des tâches par les humains, soit un entraînement prolongé dans un environnement simulé. Ces méthodes sont coûteuses en temps et en ressources et souvent sujettes à l’échec.

Avec le modèle VRB, aucun humain n’est requis et le robot peut apprendre une nouvelle tâche en seulement 25 minutes. De plus, le robot peut s’adapter à des environnements différents de ceux montrés dans les vidéos. Comme dit précédemment, les chercheurs ont testé leur modèle sur deux robots qui ont réussi à apprendre 12 tâches dans des environnements variés. Le modèle VRB pourrait améliorer l’utilité des robots dans la maison et leur permettre d’apprendre à partir de la grande quantité de vidéos disponibles sur Internet et YouTube. Le modèle VRB pourrait aussi avoir des applications dans d’autres domaines où les robots pourraient bénéficier d’un apprentissage rapide et flexible.

Un robot cuisinier apprend à préparer des salades en regardant des vidéos

Les chercheurs de l'université de Cambridge ont programmé leur robot cuisinier à l'aide d'un « livre de cuisine » contenant huit recettes simples de salades. Après avoir regardé une vidéo d'un humain faisant la démonstration d'une des recettes, le robot a pu identifier la recette en cours de préparation et la réaliser.

En outre, les vidéos ont aidé le robot à enrichir progressivement son livre de cuisine. À la fin de l'expérience, le robot a trouvé une neuvième recette par lui-même. Leurs résultats, publiés dans la revue IEEE Access, démontrent que le contenu vidéo peut constituer une source précieuse et riche de données pour la production alimentaire automatisée, et pourrait permettre un déploiement plus facile et moins coûteux de robots cuisiniers.

Les robots cuisiniers font partie de la science-fiction depuis des décennies, mais dans la réalité, cuisiner est un problème difficile pour un robot. Plusieurs sociétés commerciales ont construit des prototypes de robots cuisiniers, mais aucun d'entre eux n'est actuellement disponible dans le commerce, et ils sont loin d'être aussi compétents que leurs homologues humains.

Les cuisiniers humains peuvent apprendre de nouvelles recettes par l'observation, que ce soit en regardant une autre personne cuisiner ou en regardant une vidéo sur YouTube, mais programmer un robot pour qu'il prépare une série de plats est coûteux et prend du temps.

L'entraînement du robot

Le robot a été programmé pour recréer huit recettes de salades simples dans le cadre de cette expérience. Les chercheurs se sont filmés en train de réaliser ces recettes de salade pour entraîner le robot. Dans un premier temps, le robot a regardé une vidéo d'un humain en train de préparer l'une des recettes. Après avoir été entraîné, le robot a été autorisé à identifier la recette en cours de préparation et à la réaliser.

Étonnamment, les vidéos ont également aidé le robot à créer son livre de recettes. Selon le communiqué officiel, l'utilisation de toutes ces ressources de formation a permis au robot de développer une neuvième recette par lui-même. « Nous voulions voir si nous pouvions entraîner un robot cuisinier à apprendre de la même manière que les humains, en identifiant les ingrédients et la manière dont ils vont ensemble dans le plat », a déclaré Grzegorz Sochacki, du département d'ingénierie de Cambridge.

Sochacki, candidat au doctorat dans le laboratoire de robotique bio-inspirée du professeur Fumiya Iida, et ses collègues ont conçu huit recettes de salades simples et se sont filmés en train de les réaliser. Ils ont ensuite utilisé un réseau neuronal accessible au public pour entraîner leur robot cuisinier. Le réseau neuronal avait déjà été programmé pour identifier une série d'objets différents, y compris les fruits et légumes utilisés dans les huit recettes de salade (brocoli, carotte, pomme, banane et orange).

À l'aide de techniques de vision artificielle, le robot a analysé chaque image de la vidéo et a pu identifier les différents objets et caractéristiques, tels que le couteau et les ingrédients, ainsi que les bras, les mains et le visage du démonstrateur humain. Les recettes et les vidéos ont été converties en vecteurs et le robot a effectué des opérations mathématiques sur les vecteurs pour déterminer la similitude entre une démonstration et un vecteur.

En identifiant correctement les ingrédients et les actions du chef humain, le robot a pu déterminer laquelle des recettes était en train d'être préparée. Le robot a pu déduire que si le présentateur humain tenait un couteau dans une main et une carotte dans l'autre, la carotte serait alors coupée en morceaux. Sur les 16 vidéos visionnées, le robot a reconnu la bonne recette dans 93 % des cas, même s'il n'a détecté que 83 % des actions de l’humain. Le robot a également été capable de détecter que de légères variations dans une recette, telles que la réalisation d'une double portion ou une erreur humaine normale, étaient des variations et non une nouvelle recette. Le robot a également reconnu correctement la démonstration d'une neuvième salade, l'a ajoutée à son livre de recettes et l'a réalisée.

Les robots ont appris à regarder et à apprendre

VRB est une version avancée de WHIRL (In-the-Wild Human Imitating Robot Learning), un modèle que les chercheurs utilisaient auparavant pour former les robots. La différence entre WHIRL et VRB est que, dans le premier cas, un humain doit effectuer une tâche devant un robot dans un environnement particulier. Après avoir observé l'humain, le robot peut effectuer la tâche dans le même environnement.

Dans le cas de la VRB, aucun humain n'est nécessaire et, avec un peu d'entraînement, un robot en formation peut imiter les opérations humaines, même dans un environnement différent de celui qui est montré dans la vidéo.

Le modèle repose sur l'affordance, un concept qui explique la possibilité d'agir sur un objet. Les concepteurs utilisent l'affordance pour rendre un produit convivial et intuitif. « Pour la VRB, les affordances définissent où et comment un robot peut interagir avec un objet en fonction du comportement humain. Par exemple, lorsqu'un robot regarde un humain ouvrir un tiroir, il identifie les points de contact - la poignée - et la direction du mouvement du tiroir - en ligne droite à partir du point de départ. Après avoir visionné plusieurs vidéos d'humains ouvrant des tiroirs, le robot peut déterminer comment ouvrir n'importe quel tiroir », notent les chercheurs.

Au cours de leur étude, les chercheurs ont d'abord fait visionner aux robots des vidéos provenant de vastes ensembles de données vidéo tels qu'Ego4d et Epic Kitchen. Ces vastes données ont été développées pour entraîner les programmes d'IA à apprendre les actions humaines. Ils ont ensuite utilisé l'affordance pour faire comprendre aux robots les points de contact et les étapes qui rendent une action complète. Enfin, ils ont testé deux plateformes robotiques dans de multiples environnements réels pendant 200 heures.

« Le robot peut apprendre où et comment les humains interagissent avec différents objets en regardant des vidéos », explique Deepak Pathak, professeur adjoint à l'Institut de robotique de l'École d'informatique de la CMU. « À partir de ces connaissances, nous pouvons former un modèle qui permet à deux robots d'accomplir des tâches similaires dans des environnements variés. »

Les méthodes actuelles de formation des robots nécessitent soit une démonstration manuelle des tâches par des humains, soit une formation approfondie dans un environnement simulé. Ces deux méthodes prennent du temps et sont sujettes à l'échec. Les recherches antérieures de Pathak et de ses étudiants ont mis en évidence une nouvelle méthode dans laquelle les robots apprennent en observant les humains accomplir des tâches. Cependant, WHIRL exigeait que l'homme accomplisse la tâche dans le même environnement que le robot.

🤖 Robotics often faces a chicken and egg problem: no web-scale robot data for training (unlike CV or NLP) b/c robots aren't...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Visual-Robotics Bridge, un modèle qui permet aux robots de développer la capacité d'apprendre en regardant des vidéos,

Il utilise le concept d'affordance pour identifier la direction des mouvements

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Visual-Robotics Bridge, un modèle qui permet aux robots de développer la capacité d'apprendre en regardant des vidéos, Il utilise le concept d'affordance pour identifier la direction des mouvements

Visual-Robotics Bridge, un modèle qui permet aux robots de développer la capacité d'apprendre en regardant des vidéos,

Il utilise le concept d'affordance pour identifier la direction des mouvements