RoboCat, un agent d'IA auto-améliorant pour la robotique, apprend à effectuer une variété de tâches avec différents bras, et qui génère ensuite lui-même de nouvelles données d'entraînement pour améliorer sa technique.
Des recherches antérieures ont exploré la manière de développer des robots capables d'apprendre à effectuer des tâches multiples à grande échelle et de combiner la compréhension des modèles de langage avec les capacités réelles d'un robot d'assistance. RoboCat est le premier agent à résoudre et à s'adapter à des tâches multiples et à le faire avec différents robots réels.
RoboCat apprend beaucoup plus vite que les autres modèles de pointe. Il peut assimiler une nouvelle tâche avec seulement 100 démonstrations, car il s'appuie sur un ensemble de données vaste et diversifié. Cette capacité contribuera à accélérer la recherche en robotique, car elle réduit la nécessité d'une formation supervisée par l'homme, et constitue une étape importante vers la création d'un robot polyvalent.
Comment RoboCat s'améliore
RoboCat est basé sur le modèle multimodal Gato ("chat" en espagnol), qui peut traiter le langage, les images et les actions dans des environnements simulés et physiques. Google Deepmind a combiné l'architecture de Gato avec un vaste ensemble de données d'entraînement comprenant des séquences d'images et d'actions de différents bras robotiques résolvant des centaines de tâches différentes.
Après ce premier cycle de formation, RoboCat a été lancé dans un cycle de formation "d'auto-amélioration" avec un ensemble de tâches inédites. L'apprentissage de chaque nouvelle tâche s'est déroulé en cinq étapes :
- Recueillir 100 à 1000 démonstrations d'une nouvelle tâche ou d'un nouveau robot, à l'aide d'un bras robotique contrôlé par un humain.
- Affiner RoboCat sur cette nouvelle tâche/bras, en créant un agent dérivé spécialisé.
- L'agent dérivé s'exerce en moyenne 10 000 fois sur cette nouvelle tâche/bras, générant ainsi davantage de données d'entraînement.
- Incorporer les données de démonstration et les données autogénérées dans l'ensemble de données de formation existant de RoboCat.
- Entraîner une nouvelle version de RoboCat sur le nouvel ensemble de données d'entraînement.
Cycle d'entraînement de RoboCat, renforcé par sa capacité à générer de manière autonome des données d'entraînement supplémentaires.
La combinaison de tous ces entraînements signifie que la dernière version de RoboCat est basée sur un ensemble de millions de trajectoires, provenant de bras robotiques réels et simulés, y compris des données générées par l'utilisateur lui-même. Quatre types de robots différents et de nombreux bras robotiques ont été utilisés pour collecter des données visuelles représentant les tâches auxquelles RoboCat sera entraîné.
L'apprentissage du maniement de nouveaux bras robotiques et de tâches plus complexes
Grâce à sa formation diversifiée, RoboCat a appris à utiliser différents bras robotisés en l'espace de quelques heures. Alors qu'il avait été formé sur des bras dotés de pinces à deux doigts, il a pu s'adapter à un bras plus complexe doté d'une pince à trois doigts et de deux fois plus d'entrées contrôlables.
Après avoir observé 1000 démonstrations contrôlées par des humains, réalisées en quelques heures seulement, RoboCat a pu diriger ce nouveau bras avec suffisamment de dextérité pour saisir des engrenages avec succès dans 86 % des cas. Avec le même niveau de démonstrations, il a pu s'adapter pour résoudre des tâches combinant précision et compréhension, comme retirer le bon fruit d'un bol et résoudre un puzzle de correspondance de formes, qui sont nécessaires pour un contrôle plus complexe.
Le généraliste qui s'améliore
RoboCat a un cycle vertueux de formation : plus il apprend de nouvelles tâches, plus il s'améliore dans l'apprentissage de nouvelles tâches. La version initiale de RoboCat ne réussissait que 36 % du temps sur des tâches inédites, après avoir appris à partir de 500 démonstrations par tâche. Mais la dernière version de RoboCat, qui s'est entraînée sur une plus grande diversité de tâches, a plus que doublé ce taux de réussite sur les mêmes tâches.
La grande différence de performance entre la version initiale de RoboCat (un cycle de formation) et la version finale (formation étendue et diversifiée, y compris l'auto-amélioration) après que les deux versions ont été affinées sur 500 démonstrations de tâches inédites.
Ces améliorations sont dues à l'étendue croissante de l'expérience de RoboCat, similaire à la façon dont les gens développent une gamme plus diversifiée de compétences au fur et à mesure qu'ils approfondissent leur apprentissage dans un domaine donné. La capacité de RoboCat à acquérir des compétences de manière indépendante et à s'améliorer rapidement, en particulier lorsqu'elle est appliquée à différents dispositifs robotiques, ouvrira la voie à une nouvelle génération d'agents robotiques plus utiles et plus polyvalents.
Source : Deepmind
Et vous ?
Que pensez-vous des capacités de RoboCat ?
Quels seront les impacts de ce type de robot dans le monde du travail dans les prochaines années ?
Voir aussi :
Le chien robot Spot parvient à parler en langage naturel avec des humains grâce à ChatGPT, ce qui lui confère plusieurs avantages comme l'accès à des informations auparavant difficiles à obtenir
Tesla pourrait disposer d'un prototype fonctionnel de robot humanoïde en septembre, d'après Elon Musk qui entend s'appuyer sur ce projet pour une percée en intelligence artificielle générale
L'IA a-t-elle mal tourné ? Un robot d'échecs à Moscou a cassé le doigt de son adversaire humain, un garçon de sept ans, ses parents envisagent de porter plainte