Le système s'attaque aux coûts élevés et aux défis techniques de la formation des robots mobiles bimanuels qui nécessitent d'être soigneusement guidés par des opérateurs humains. Il ne coûte qu'une fraction des systèmes disponibles sur le marché et peut apprendre à partir de 50 démonstrations humaines seulement. Ce nouveau système s'inscrit dans le contexte d'une accélération de la robotique, rendue possible en partie par le succès des modèles génératifs.
Limites des systèmes robotiques actuels
La plupart des tâches de manipulation robotique se concentrent sur la manipulation sur table. Cela inclut une vague récente de modèles qui ont été construits sur la base de transformateurs et de modèles de diffusion, des architectures largement utilisées dans l'IA générative. Toutefois, nombre de ces modèles n'ont pas la mobilité et la dextérité nécessaires pour accomplir des tâches généralement utiles. De nombreuses tâches dans les environnements quotidiens nécessitent une coordination de la mobilité et des capacités de manipulation dextre.
"Avec l'ajout de degrés de liberté supplémentaires, l'interaction entre les bras et les actions de base peut être complexe, et un petit écart dans la pose de base peut entraîner de grandes dérives dans la pose de l'effecteur final du bras", écrivent les chercheurs de Stanford dans leur article, ajoutant que les travaux antérieurs n'ont pas fourni "une solution pratique et convaincante pour la manipulation mobile bimanuelle, à la fois du point de vue du matériel et du point de vue de l'apprentissage".
ALOHA mobile
Le nouveau système mis au point par les chercheurs de Stanford s'appuie sur ALOHA, un système de téléopération à faible coût et couvrant l'ensemble du corps, qui permet de recueillir des données sur la manipulation mobile bimanuelle. Un opérateur humain démontre des tâches en manipulant les bras du robot à l'aide d'une commande téléopérée. Le système capture les données de démonstration et les utilise pour former un système de contrôle grâce à un apprentissage par imitation de bout en bout.
Mobile ALOHA étend le système en le montant sur une base roulante. Il est conçu pour fournir une solution rentable pour la formation des systèmes robotiques. L'ensemble de l'installation, qui comprend des webcams et un ordinateur portable doté d'un GPU grand public, coûte environ 32 000 dollars, ce qui est beaucoup moins cher que les robots bimanuels disponibles sur le marché, qui peuvent coûter jusqu'à 200 000 dollars.
Mobile ALOHA est conçu pour téléopérer simultanément tous les degrés de liberté. L'opérateur humain est attaché au système par la taille et le conduit autour de l'environnement de travail tout en actionnant les bras à l'aide de contrôleurs. Cela permet au système de commande du robot d'apprendre simultanément les mouvements et les autres commandes. Une fois qu'il a recueilli suffisamment d'informations, le modèle peut alors répéter la séquence de tâches de manière autonome.
Le système de téléopération peut être utilisé pendant plusieurs heures consécutives. Les résultats sont impressionnants et montrent qu'une simple recette d'entraînement permet au système d'apprendre des tâches complexes de manipulation mobile. Les démonstrations montrent le robot entraîné en train de cuisiner un repas de trois plats avec des tâches délicates telles que casser des œufs, émincer de l'ail, verser un liquide, déballer des légumes et retourner du poulet dans une poêle à frire.
Mobile ALOHA peut également effectuer diverses tâches ménagères, comme arroser les plantes, utiliser un aspirateur, charger et décharger un lave-vaisselle, sortir des boissons du réfrigérateur, ouvrir des portes et faire fonctionner des machines à laver.
Apprentissage par imitation et coformation
Comme de nombreux travaux récents en robotique, Mobile ALOHA tire parti des transformateurs, l'architecture utilisée dans les grands modèles de langage. Le système ALOHA original utilisait une architecture appelée Action Chunking with Transformers (ACT), qui prend en entrée des images provenant de plusieurs points de vue et positions articulaires et prédit une séquence d'actions.
Mobile ALOHA étend ce système en ajoutant des signaux de mouvement au vecteur d'entrée. Cette formulation permet à Mobile ALOHA de réutiliser des algorithmes antérieurs d'apprentissage par imitation profonde avec un minimum de changements.
"Nous observons que le simple fait de concaténer les actions de la base et du bras, puis de former via l'apprentissage par imitation directe, peut produire de bonnes performances", écrivent les chercheurs. "Plus précisément, nous concaténons les positions articulaires 14-DoF d'ALOHA avec la vitesse linéaire et angulaire de la base mobile, formant ainsi un vecteur d'action à 16 dimensions."
Le travail bénéficie également du succès de méthodes récentes qui pré-entraînent les modèles sur divers ensembles de données de robots provenant d'autres projets. On notera en particulier RT-X, un projet de DeepMind et de 33 institutions de recherche, qui a combiné plusieurs ensembles de données robotiques pour créer des systèmes de contrôle capables de se généraliser bien au-delà de leurs données d'entraînement et des morphologies des robots.
"Malgré les différences de tâches et de morphologie, nous observons un transfert positif dans presque toutes les tâches de manipulation mobile, atteignant des performances et une efficacité des données équivalentes ou supérieures à celles des politiques formées en utilisant uniquement les données de Mobile ALOHA", écrivent les chercheurs.
L'utilisation de données existantes a permis aux chercheurs d'entraîner Mobile ALOHA à des tâches complexes avec très peu de démonstrations humaines. "Avec la co-formation, nous sommes en mesure d'atteindre plus de 80 % de réussite sur ces tâches avec seulement 50 démonstrations humaines par tâche, avec une moyenne de 34 % d'amélioration absolue par rapport à l'absence de co-formation", écrivent les chercheurs.
Pas prêt pour la production
Malgré ses résultats impressionnants, Mobile ALOHA présente des inconvénients. Par exemple, son encombrement et son facteur de forme peu maniable ne le rendent pas adapté aux environnements restreints. À l'avenir, les chercheurs prévoient d'améliorer le système en ajoutant davantage de degrés de liberté et en réduisant le volume du robot.
Il convient également de noter qu'il ne s'agit pas d'un système entièrement autonome capable d'apprendre à explorer de nouveaux environnements par lui-même. Il nécessite toujours des démonstrations complètes par des opérateurs humains dans son environnement, bien qu'il apprenne les tâches avec moins d'exemples que les méthodes précédentes, grâce à son système de coentraînement.
Les chercheurs étudieront les modifications à apporter au modèle d'IA pour permettre au robot de s'améliorer lui-même et d'acquérir de nouvelles connaissances.
Compte tenu de la tendance récente à former des systèmes d'IA de contrôle sur différents ensembles de données et morphologies, ces travaux peuvent accélérer le développement de robots mobiles polyvalents. Dans l'idéal, ils pourraient déboucher sur des robots utiles pour les entreprises et les consommateurs, un domaine qui se développe rapidement grâce aux travaux d'autres chercheurs et d'entreprises telles que Tesla, avec son robot humanoïde Optimus encore en développement, et Hyundai, avec sa division Boston Dynamics, qui propose le chien robotique Spot à la vente pour environ 74 000 dollars américains.
Mobile ALOHA : Apprentissage de la manipulation mobile bimanuelle avec téléopération du corps entier à faible coût
Résumé
L'apprentissage par imitation à partir de démonstrations humaines a montré des performances impressionnantes en robotique. Cependant, la plupart des résultats se concentrent sur la manipulation sur table, manquant de la mobilité et de la dextérité nécessaires pour des tâches généralement utiles. Dans ce travail, nous développons un système pour imiter des tâches de manipulation mobile qui sont bimanuelles et nécessitent un contrôle de l'ensemble du corps.
Nous présentons tout d'abord Mobile ALOHA, un système de téléopération à faible coût et à corps entier pour la collecte de données. Il complète le système ALOHA avec une base mobile et une interface de téléopération du corps entier. En utilisant les données collectées avec Mobile ALOHA, nous effectuons ensuite un clonage supervisé du comportement et nous constatons que le co-entraînement avec les ensembles de données statiques existants d'ALOHA augmente les performances sur les tâches de manipulation mobile.
Avec 50 démonstrations pour chaque tâche, le co-entraînement peut augmenter les taux de réussite jusqu'à 90%, permettant à Mobile ALOHA de réaliser de manière autonome des tâches de manipulation mobile complexes telles que faire sauter et servir un morceau de crevettes, ouvrir une armoire murale à deux portes pour ranger des casseroles lourdes, appeler et entrer dans un ascenseur, et rincer légèrement une casserole usagée à l'aide d'un robinet de cuisine.
Conclusion, limites et orientations futures
En résumé, notre article aborde à la fois les aspects matériels et logiciels de la manipulation mobile bimanuelle. L'ajout au système ALOHA d'une base mobile et d'une téléopération du corps entier nous permet de recueillir des démonstrations de haute qualité sur des tâches complexes de manipulation mobile. Ensuite, grâce à l'apprentissage par imitation co-entraîné avec les données statiques d'ALOHA, Mobile ALOHA peut apprendre à effectuer ces tâches avec seulement 20 à 50 démonstrations. Nous sommes également en mesure de maintenir le système accessible, avec un budget inférieur à 32 000 dollars, y compris la puissance embarquée et le calcul, et en open-sourcing à la fois pour le logiciel et le matériel.
Malgré la simplicité et les performances de Mobile ALOHA, il existe encore des limitations que nous espérons aborder dans les travaux futurs. Sur le plan matériel, nous chercherons à réduire la surface occupée par Mobile ALOHA. L'empreinte actuelle de 90 cm x 135 cm pourrait être trop étroite pour certains chemins. En outre, la hauteur fixe des deux bras suiveurs rend les armoires basses, les fours et les lave-vaisselle difficiles à atteindre. Nous prévoyons d'ajouter des degrés de liberté supplémentaires à l'élévation des bras pour résoudre ce problème.
En ce qui concerne les logiciels, nous limitons nos résultats en matière d'apprentissage de politiques à l'apprentissage par imitation d'une seule tâche. Le robot ne peut pas encore s'améliorer de manière autonome ou explorer pour acquérir de nouvelles connaissances. En outre, les démonstrations de Mobile ALOHA sont collectées par deux opérateurs experts. Nous laissons aux travaux futurs le soin de s'attaquer à l'apprentissage par imitation à partir d'ensembles de données hétérogènes hautement sous-optimaux.
Résumé
L'apprentissage par imitation à partir de démonstrations humaines a montré des performances impressionnantes en robotique. Cependant, la plupart des résultats se concentrent sur la manipulation sur table, manquant de la mobilité et de la dextérité nécessaires pour des tâches généralement utiles. Dans ce travail, nous développons un système pour imiter des tâches de manipulation mobile qui sont bimanuelles et nécessitent un contrôle de l'ensemble du corps.
Nous présentons tout d'abord Mobile ALOHA, un système de téléopération à faible coût et à corps entier pour la collecte de données. Il complète le système ALOHA avec une base mobile et une interface de téléopération du corps entier. En utilisant les données collectées avec Mobile ALOHA, nous effectuons ensuite un clonage supervisé du comportement et nous constatons que le co-entraînement avec les ensembles de données statiques existants d'ALOHA augmente les performances sur les tâches de manipulation mobile.
Avec 50 démonstrations pour chaque tâche, le co-entraînement peut augmenter les taux de réussite jusqu'à 90%, permettant à Mobile ALOHA de réaliser de manière autonome des tâches de manipulation mobile complexes telles que faire sauter et servir un morceau de crevettes, ouvrir une armoire murale à deux portes pour ranger des casseroles lourdes, appeler et entrer dans un ascenseur, et rincer légèrement une casserole usagée à l'aide d'un robinet de cuisine.
Conclusion, limites et orientations futures
En résumé, notre article aborde à la fois les aspects matériels et logiciels de la manipulation mobile bimanuelle. L'ajout au système ALOHA d'une base mobile et d'une téléopération du corps entier nous permet de recueillir des démonstrations de haute qualité sur des tâches complexes de manipulation mobile. Ensuite, grâce à l'apprentissage par imitation co-entraîné avec les données statiques d'ALOHA, Mobile ALOHA peut apprendre à effectuer ces tâches avec seulement 20 à 50 démonstrations. Nous sommes également en mesure de maintenir le système accessible, avec un budget inférieur à 32 000 dollars, y compris la puissance embarquée et le calcul, et en open-sourcing à la fois pour le logiciel et le matériel.
Malgré la simplicité et les performances de Mobile ALOHA, il existe encore des limitations que nous espérons aborder dans les travaux futurs. Sur le plan matériel, nous chercherons à réduire la surface occupée par Mobile ALOHA. L'empreinte actuelle de 90 cm x 135 cm pourrait être trop étroite pour certains chemins. En outre, la hauteur fixe des deux bras suiveurs rend les armoires basses, les fours et les lave-vaisselle difficiles à atteindre. Nous prévoyons d'ajouter des degrés de liberté supplémentaires à l'élévation des bras pour résoudre ce problème.
En ce qui concerne les logiciels, nous limitons nos résultats en matière d'apprentissage de politiques à l'apprentissage par imitation d'une seule tâche. Le robot ne peut pas encore s'améliorer de manière autonome ou explorer pour acquérir de nouvelles connaissances. En outre, les démonstrations de Mobile ALOHA sont collectées par deux opérateurs experts. Nous laissons aux travaux futurs le soin de s'attaquer à l'apprentissage par imitation à partir d'ensembles de données hétérogènes hautement sous-optimaux.
Et vous ?
Quel est votre avis sur le sujet ?
Selon vous, quel est le futur de Mobile ALOHA ?
Voir aussi :
Google DeepMind présente RT-X : un modèle d'IA généraliste pour aider à faire progresser la façon dont les robots peuvent apprendre de nouvelles compétences
Toyota Research annonce une percée dans l'apprentissage de nouveaux comportements aux robots, avec l'objectif d'enseigner un millier de nouvelles compétences d'ici à la fin de l'année 2024
Tesla publie une nouvelle vidéo de son robot Optimus qui ressemble presque à de la synthèse d'images, montrant comment l'humanoïde est entraîné avec un réseau neuronal de bout en bout