Les chercheurs de DeepMind présentent une méthode d’apprentissage par renforcement profond pour enseigner à un robot bipède des compétences de football agiles, telles que le dribble, le tir et le contrôle du ballon. Les auteurs utilisent une simulation réaliste basée sur la physique et un robot NAO comme plateforme expérimentale. Ils proposent une architecture modulaire qui combine des politiques locales spécialisées et une politique globale hiérarchique. Ils montrent que leur méthode permet au robot d’apprendre des comportements complexes et robustes face à des situations variées et imprévisibles. Ils évaluent leur approche sur des tâches de football individuelles et collectives, et comparent leurs résultats avec des méthodes de l’état de l’art.La création d'une intelligence corporelle générale, c'est-à-dire la création d'agents capables d'agir dans le monde physique avec agilité, dextérité et compréhension - comme le font les animaux ou les humains - est l'un des objectifs de longue date des chercheurs en IA et des roboticiens. Les animaux et les humains ne sont pas seulement maîtres de leur corps, capables d'exécuter et de combiner des mouvements complexes de manière cohérente et sans effort, mais ils perçoivent et comprennent également leur environnement et utilisent leur corps pour obtenir des résultats complexes dans le monde.
Ces dernières années, la logique profonde a été de plus en plus appliquée aux robots physiques. En particulier, les robots quadrupèdes à jambes de haute qualité sont devenus largement disponibles et ont été la cible d'un certain nombre de démonstrations de la façon dont l'apprentissage peut générer une large gamme de comportements de locomotion robustes. Le mouvement dans des environnements statiques ne représente qu'un sous-ensemble des nombreuses façons dont les animaux et les humains peuvent déployer leur corps pour interagir avec le monde.
Les exemples incluent l'escalade, les compétences de football comme le dribble ou la capture, et l'utilisation des jambes pour une manipulation simple. Alors que de nombreux travaux se sont concentrés sur les quadrupèdes, qui sont intrinsèquement stables, un petit nombre de travaux ont abordé la locomotion et d'autres mouvements pour les bipèdes et les humanoïdes, qui posent des défis supplémentaires, en particulier en ce qui concerne la stabilité et la sécurité.
Ces exemples sont encourageants, mais la création de comportements multi-compétences sophistiqués à long terme qui peuvent être composés, s'adapter à des contextes environnementaux différents et être exécutés en toute sécurité sur des robots réels reste un problème difficile en raison des difficultés de spécification des récompenses et de la nécessité d'équilibrer des objectifs conflictés pour obtenir des mouvements non seulement dynamiques et agiles, mais aussi sûrs.
Les sports comme le football mettent en évidence de nombreuses caractéristiques de l'intelligence sensorimotrice humaine. Dans toute sa complexité, le football exige un ensemble varié de mouvements très agiles et dynamiques, notamment courir, tourner, faire un pas de côté, donner un coup de pied, faire une passe, rattraper une chute, interagir avec un objet, et bien d'autres encore, qui doivent être composés de diverses manières. Les joueurs doivent en outre être capables de faire des prévisions concernant le ballon, leurs coéquipiers et leurs adversaires, et d'adapter leurs mouvements au contexte du jeu.
Les joueurs doivent également coordonner leurs mouvements sur de longues périodes afin de parvenir à un jeu tactique et coordonné. Cette diversité de défis a été reconnue par les communautés de la robotique et de l'intelligence artificielle, notamment dans le cadre de la compétition RoboCup. Les comportements agiles, flexibles et réactifs - et les transitions fluides entre eux - nécessaires pour bien jouer au football sont difficiles et longs à concevoir manuellement pour un robot.
Les chercheurs ont créé des environnements de football simulés (à gauche) et réels (à droite). Le terrain est long de 5 ml et large de 4 m. L'environnement réel était aussi équipé d'un système de capture de mouvement (mocap) pour suivre les deux robots et le ballon.
L’objectif des chercheurs est d'entraîner un agent qui compose le large éventail de compétences requises pour le football - y compris marcher, botter, se relever du sol, marquer et défendre - en un comportement stratégique à long terme, que nous pouvons ensuite transférer à un vrai robot. Ces comportements n'apparaissent pas si l'on se contente d'entraîner les agents sur la base d'une récompense éparse pour avoir marqué des buts, en raison de deux difficultés principales : l'exploration et l'apprentissage de comportements transférables.
Ces difficultés sont surmontées en divisant l'entraînement en deux étapes, comme le montre la figure ci-dessous. Dans la première étape, les chercheurs entraînent les politiques de l'enseignant pour deux compétences spécifiques : se lever du sol et marquer des points contre un adversaire non entraîné. Lors de l'apprentissage de cette dernière compétence, l'épisode se termine lorsque l'agent est au...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
