Les chercheurs ont réussi à faire apprendre à deux robots 12 tâches différentes, comme ouvrir un tiroir, un four ou un couvercle, prendre une casserole sur le feu ou soulever un téléphone. Ce travail pourrait améliorer la façon dont les robots sont entraînés et leur permettre de profiter de la grande quantité de vidéos disponibles sur Internet.
Visual-Robotics Bridge se base sur le concept d’affordance, qui désigne la possibilité d’une action sur un objet en fonction du comportement humain. Par exemple, en regardant un humain ouvrir un tiroir, le robot identifie les points de contact (la poignée) et la direction du mouvement du tiroir (droit vers l’extérieur). Après avoir regardé plusieurs vidéos d’humains ouvrant des tiroirs, le robot peut déterminer comment ouvrir n’importe quel tiroir.
Le modèle VRB a plusieurs avantages par rapport aux méthodes actuelles d’entraînement des robots, qui nécessitent soit la démonstration manuelle des tâches par les humains, soit un entraînement prolongé dans un environnement simulé. Ces méthodes sont coûteuses en temps et en ressources et souvent sujettes à l’échec.
Avec le modèle VRB, aucun humain n’est requis et le robot peut apprendre une nouvelle tâche en seulement 25 minutes. De plus, le robot peut s’adapter à des environnements différents de ceux montrés dans les vidéos. Comme dit précédemment, les chercheurs ont testé leur modèle sur deux robots qui ont réussi à apprendre 12 tâches dans des environnements variés. Le modèle VRB pourrait améliorer l’utilité des robots dans la maison et leur permettre d’apprendre à partir de la grande quantité de vidéos disponibles sur Internet et YouTube. Le modèle VRB pourrait aussi avoir des applications dans d’autres domaines où les robots pourraient bénéficier d’un apprentissage rapide et flexible.
Un robot cuisinier apprend à préparer des salades en regardant des vidéos
Les chercheurs de l'université de Cambridge ont programmé leur robot cuisinier à l'aide d'un « livre de cuisine » contenant huit recettes simples de salades. Après avoir regardé une vidéo d'un humain faisant la démonstration d'une des recettes, le robot a pu identifier la recette en cours de préparation et la réaliser.
En outre, les vidéos ont aidé le robot à enrichir progressivement son livre de cuisine. À la fin de l'expérience, le robot a trouvé une neuvième recette par lui-même. Leurs résultats, publiés dans la revue IEEE Access, démontrent que le contenu vidéo peut constituer une source précieuse et riche de données pour la production alimentaire automatisée, et pourrait permettre un déploiement plus facile et moins coûteux de robots cuisiniers.
Les robots cuisiniers font partie de la science-fiction depuis des décennies, mais dans la réalité, cuisiner est un problème difficile pour un robot. Plusieurs sociétés commerciales ont construit des prototypes de robots cuisiniers, mais aucun d'entre eux n'est actuellement disponible dans le commerce, et ils sont loin d'être aussi compétents que leurs homologues humains.
Les cuisiniers humains peuvent apprendre de nouvelles recettes par l'observation, que ce soit en regardant une autre personne cuisiner ou en regardant une vidéo sur YouTube, mais programmer un robot pour qu'il prépare une série de plats est coûteux et prend du temps.
L'entraînement du robot
Le robot a été programmé pour recréer huit recettes de salades simples dans le cadre de cette expérience. Les chercheurs se sont filmés en train de réaliser ces recettes de salade pour entraîner le robot. Dans un premier temps, le robot a regardé une vidéo d'un humain en train de préparer l'une des recettes. Après avoir été entraîné, le robot a été autorisé à identifier la recette en cours de préparation et à la réaliser.
Étonnamment, les vidéos ont également aidé le robot à créer son livre de recettes. Selon le communiqué officiel, l'utilisation de toutes ces ressources de formation a permis au robot de développer une neuvième recette par lui-même. « Nous voulions voir si nous pouvions entraîner un robot cuisinier à apprendre de la même manière que les humains, en identifiant les ingrédients et la manière dont ils vont ensemble dans le plat », a déclaré Grzegorz Sochacki, du département d'ingénierie de Cambridge.
Sochacki, candidat au doctorat dans le laboratoire de robotique bio-inspirée du professeur Fumiya Iida, et ses collègues ont conçu huit recettes de salades simples et se sont filmés en train de les réaliser. Ils ont ensuite utilisé un réseau neuronal accessible au public pour entraîner leur robot cuisinier. Le réseau neuronal avait déjà été programmé pour identifier une série d'objets différents, y compris les fruits et légumes utilisés dans les huit recettes de salade (brocoli, carotte, pomme, banane et orange).
À l'aide de techniques de vision artificielle, le robot a analysé chaque image de la vidéo et a pu identifier les différents objets et caractéristiques, tels que le couteau et les ingrédients, ainsi que les bras, les mains et le visage du démonstrateur humain. Les recettes et les vidéos ont été converties en vecteurs et le robot a effectué des opérations mathématiques sur les vecteurs pour déterminer la similitude entre une démonstration et un vecteur.
En identifiant correctement les ingrédients et les actions du chef humain, le robot a pu déterminer laquelle des recettes était en train d'être préparée. Le robot a pu déduire que si le présentateur humain tenait un couteau dans une main et une carotte dans l'autre, la carotte serait alors coupée en morceaux. Sur les 16 vidéos visionnées, le robot a reconnu la bonne recette dans 93 % des cas, même s'il n'a détecté que 83 % des actions de l’humain. Le robot a également été capable de détecter que de légères variations dans une recette, telles que la réalisation d'une double portion ou une erreur humaine normale, étaient des variations et non une nouvelle recette. Le robot a également reconnu correctement la démonstration d'une neuvième salade, l'a ajoutée à son livre de recettes et l'a réalisée.
Les robots ont appris à regarder et à apprendre
VRB est une version avancée de WHIRL (In-the-Wild Human Imitating Robot Learning), un modèle que les chercheurs utilisaient auparavant pour former les robots. La différence entre WHIRL et VRB est que, dans le premier cas, un humain doit effectuer une tâche devant un robot dans un environnement particulier. Après avoir observé l'humain, le robot peut effectuer la tâche dans le même environnement.
Dans le cas de la VRB, aucun humain n'est nécessaire et, avec un peu d'entraînement, un robot en formation peut imiter les opérations humaines, même dans un environnement différent de celui qui est montré dans la vidéo.
Le modèle repose sur l'affordance, un concept qui explique la possibilité d'agir sur un objet. Les concepteurs utilisent l'affordance pour rendre un produit convivial et intuitif. « Pour la VRB, les affordances définissent où et comment un robot peut interagir avec un objet en fonction du comportement humain. Par exemple, lorsqu'un robot regarde un humain ouvrir un tiroir, il identifie les points de contact - la poignée - et la direction du mouvement du tiroir - en ligne droite à partir du point de départ. Après avoir visionné plusieurs vidéos d'humains ouvrant des tiroirs, le robot peut déterminer comment ouvrir n'importe quel tiroir », notent les chercheurs.
Au cours de leur étude, les chercheurs ont d'abord fait visionner aux robots des vidéos provenant de vastes ensembles de données vidéo tels qu'Ego4d et Epic Kitchen. Ces vastes données ont été développées pour entraîner les programmes d'IA à apprendre les actions humaines. Ils ont ensuite utilisé l'affordance pour faire comprendre aux robots les points de contact et les étapes qui rendent une action complète. Enfin, ils ont testé deux plateformes robotiques dans de multiples environnements réels pendant 200 heures.
« Le robot peut apprendre où et comment les humains interagissent avec différents objets en regardant des vidéos », explique Deepak Pathak, professeur adjoint à l'Institut de robotique de l'École d'informatique de la CMU. « À partir de ces connaissances, nous pouvons former un modèle qui permet à deux robots d'accomplir des tâches similaires dans des environnements variés. »
Les méthodes actuelles de formation des robots nécessitent soit une démonstration manuelle des tâches par des humains, soit une formation approfondie dans un environnement simulé. Ces deux méthodes prennent du temps et sont sujettes à l'échec. Les recherches antérieures de Pathak et de ses étudiants ont mis en évidence une nouvelle méthode dans laquelle les robots apprennent en observant les humains accomplir des tâches. Cependant, WHIRL exigeait que l'homme accomplisse la tâche dans le même environnement que le robot.
[Tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">🤖 Robotics often faces a chicken and egg problem: no web-scale robot data for training (unlike CV or NLP) b/c robots aren't deployed yet & vice-versa.<br><br>Introducing VRB: Use large-scale human videos to train a *general-purpose* affordance model to jumpstart any robotics paradigm! <a href="https://t.co/csbvsfswuG">pic.twitter.com/csbvsfswuG</a></p>— Deepak Pathak (@pathak2206) <a href="https://twitter.com/pathak2206/status/1668638865052106756?ref_src=twsrc%5Etfw">June 13, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/Tweet]
Le dernier travail de Pathak, Vision-Robotics Bridge, s'appuie sur WHIRL et l'améliore. Le nouveau modèle élimine la nécessité de démonstrations humaines ainsi que la nécessité pour le robot d'opérer dans un environnement identique. Comme WHIRL, le robot doit encore s'entraîner pour maîtriser une tâche. Les recherches de l'équipe ont montré qu'il peut apprendre une nouvelle tâche en 25 minutes seulement.
« Nous avons pu faire circuler des robots sur le campus et effectuer toutes sortes de tâches », explique Shikhar Bahl, doctorant en robotique. « Les robots peuvent utiliser ce modèle pour explorer curieusement le monde qui les entoure. Au lieu d'agiter ses bras, un robot peut être plus direct dans sa façon d'interagir ». Le modèle VRB présente aussi quelques défis ou limites. Par exemple, il n’est pas clair comment le robot peut gérer les situations où les objets sont cachés ou obstrués par d’autres objets.
Il n’est pas non plus évident comment le robot peut apprendre des tâches plus complexes ou abstraites qui nécessitent une planification ou une logique. En outre, il se peut que le robot apprenne des comportements indésirables ou dangereux en regardant des vidéos qui ne respectent pas les normes de sécurité ou d’éthique. Il faudrait donc prévoir des mécanismes de contrôle ou de correction pour éviter ces problèmes.
In finé, le modèle VRB est une méthode prometteuse pour entraîner les robots à faire des tâches ménagères en leur montrant des vidéos. Le modèle VRB pourrait améliorer l’utilité des robots dans la maison et leur permettre d’apprendre à partir de la grande quantité de vidéos disponibles sur internet et YouTube. Le modèle VRB pourrait aussi avoir des applications dans d’autres domaines où les robots pourraient bénéficier d’un apprentissage rapide et flexible. Néanmoins, le modèle VRB doit encore faire face à certains défis ou limites qui pourraient affecter sa performance ou sa fiabilité.
Sources : Carnegie Mellon University, University of Cambridge
Et vous ?
Les résultats de ces travaux sont-ils pertinents ?
Comment le modèle VRB peut-il gérer la diversité et la variabilité des vidéos disponibles sur Internet et YouTube ?
Quels peuvent être les risques éthiques ou sociaux de l’apprentissage des robots par imitation à partir de vidéos humaines ?
Voir aussi :
L'automatisation par l'IA peut-elle rendre le travail plus satisfaisant et moins pénible ? 60 % des travailleurs répondent par l'affirmative, d'après une enquête menée par UiPath
Une organisation de soins de santé comptant plus de 100 cliniques utilise le GPT-4 d'OpenAI, pour rédiger des dossiers médicaux
Les écrits scientifiques universitaires générés par l'IA peuvent être identifiés avec une précision de plus de 99 %, selon des chercheurs de l'université de Kansas