Pour les startups d’intelligence artificielle dans le monde, une manière d’entraîner leurs agents d’IA et de faire évoluer très rapidement leurs algorithmes constitue à les tester sur les jeux vidéo. Des entreprises comme DeepMind en Grande-Bretagne en font le test régulièrement en confrontant leurs agents d’IA aux meilleurs joueurs de jeux de stratégie dans le monde. Le week-end passé, c’était au tour d’OpenAI de confronter son agent d’IA dénommé OpenAI Five à la meilleure équipe de Dota 2, un match dont l’IA de la start-up est sortie vainqueur.
En juillet 2016, l’entreprise britannique DeepMind, grâce à un de ses agents d’IA dénommé AlphaGo, avait réalisé la performance d’arriver en tête du classement des meilleurs joueurs du jeu de Go en battant l’un des meilleurs joueurs de Go au monde. AlphaGo, conçu pour jouer au jeu de Go avait terrassé Lee Sedol, l’un des meilleurs joueurs de Go au monde. Il y a eu également d’autres agents d’IA qui ont joué à des jeux tels que DeepBlue qui joue aux échecs ou Watson qui a concouru au jeu télévisé Jeopardy. D’après les explications de la filiale de Google, c’est cette expérience avec AlphaGo qui l’a poussé sur la voie du jeu de stratégie en temps réel (RTS), Starcraft II.
En janvier passé, AlphaStar, une IA de DeepMind, la filiale de Google, avait réussi à battre des joueurs professionnels du jeu vidéo Starcraft II. « StarCraft est un environnement de test intéressant pour la recherche actuelle en IA, car il fournit un pont utile pour la complexité du monde réel. Les compétences nécessaires à un agent pour progresser dans l'environnement et bien jouer à StarCraft pourraient finalement être transférées à des tâches réelles », avait expliqué Google DeepMind.
La vision d’OpenAI est de parvenir à créer ce qu’il appelle une intelligence artificielle générale (AGI) c’est-à-dire une intelligence artificielle capable de tenir des raisonnements abstraits, d’apporter de la créativité et de résoudre des problèmes très complexes dans plusieurs domaines (santé, sécurité, éducation, économie, etc.). En 2017, OpenAI avait déjà développé une première version de son IA qui a tenu tête à des joueurs professionnels du jeu Dota 2, mais dans des conditions modérées.
Dota 2 se joue en matchs indépendants et oppose deux équipes de cinq joueurs qui s’affrontent pour assiéger et détruire la base de l’adversaire. Le match opposant Danylo Dendi et l’IA s’est cependant déroulé en un contre un puisque l’IA est pour le moment rodée pour gérer un seul « héros ». À l’époque, l’IA ne s’est pas appuyée sur le framework d’apprentissage automatique « one-shot imitation learning » développé et utilisé par OpenAI pour enseigner à une intelligence artificielle à reproduire une tâche à partir d’une démonstration réalisée par un humain dans un environnement virtuel.
Au contraire, OpenAI avait indiqué qu’il s’agissait d’une intelligence artificielle dotée d’une plus grande adaptabilité et autonomie. « Le bot a appris à jouer au jeu tout seul en partant de rien. Il ne s’appuie ni sur la recherche dans un arbre, ni sur l’imitation. Le succès dans ce jeu requiert que les joueurs développent des capacités d’intuition et de planification », avait décrit l’entreprise. Après les premières démonstrations et de nombreux tests, OpenAI a annoncé que « la prochaine étape du projet était de créer une équipe de bots Dota 2 capable de rivaliser et collaborer avec les meilleures équipes d’humains ». Le prochain championnat devrait donc déboucher non pas sur une rencontre en 1 contre 1, mais en 5 contre 5.
Il semblerait que cela ait bien été fait par OpenAI puisque ce week-end, l’IA de l’entreprise a battu l’équipe OG qui est l’équipe championne du monde en titre pour le jeu Dota 2. Baptisé cette fois OpenAI Five, le bot d’OpenAI est le premier agent d’IA à battre des champions du monde dans un match de sport en gagnant de surcroît tous les matchs. Pour OpenAI, si des agents d’IA indépendants peuvent se comporter en tant qu’une coopérative ou collaborer explicitement avec des humains dans des cas aussi compliqués que l’environnement de Dota 2, alors il s’agit là d’une nouvelle voie vers le futur dans le développement des systèmes intelligents.
« OpenAI Five a découvert une capacité rudimentaire à être en équipe avec des humains, même si notre processus de formation est exclusivement axé sur le combat contre d'autres robots. La facilité avec laquelle nous avons transformé une IA concurrentielle en une coopérative nous fait espérer que les futurs systèmes d’IA pourront être très bénéfiques pour les humains, compte tenu des efforts de développement actifs », a déclaré l’entreprise dans un billet de blog. L’entreprise a également expliqué que le choix porté sur Dota 2 n’était pas délibéré.
Selon elle, les environnements comme celui de Dota 2 comportent des scénarios capables d’améliorer d’une manière remarquable les algorithmes d’intelligence artificielle. « On a démarré OpenAI Five afin de travailler sur un problème qui échappait aux algorithmes d'apprentissage par renforcement existants », a-t-elle indiqué. OpenAI Five considère le monde comme un ensemble de nombres qu’il doit déchiffrer par la suite. Il utilise un même code d’apprentissage polyvalent, qu’il s’agisse de l’état d’un jeu Dota (environ 20 000 numéros) ou d’une main robotique (environ 200).
Pour ce championnat, OpenAI a considérablement amélioré la vitesse de calcul de son agent d’IA, a déclaré l’entreprise dans son billet de blog. Elle a indiqué que les victoires d’OpenAI Five samedi passé, comparées à ses défaites à The International (TI) en 2018, sont dues à un changement majeur : 8 fois plus de calculs d'entraînement. Elle a également précisé qu’au total, la version actuelle d’OpenAI Five a consommé 800 petaflops/s-jours et a connu environ 45 000 ans de jeu personnel à Dota sur 10 mois en temps réel (contre environ 10 000 ans sur 1,5 mois en temps réel au The International de 2018), soit une moyenne de 250 ans d'expérience simulée par jour. La version finale d'OpenAI Five a un taux de victoire de 99,9% par rapport à la version du TI.
Pour finir, OpenAI a indiqué que la version actuelle d'OpenAI Five s'entraîne de manière continue depuis juin 2018, malgré les changements apportés à la taille du modèle et aux règles du jeu (y compris des mises à jour de correctifs de jeu assez volumineuses et des fonctionnalités récemment mises en œuvre). « Dans chaque cas, nous avons pu transférer le modèle et poursuivre la formation, ce qui représente un défi pour le RL (apprentissage par renforcement) dans d'autres domaines. À notre connaissance, il s'agit de la première fois qu'un agent RL a été formé sur une telle formation », a-t-elle indiqué.
Source : OpenAI
Et vous ?
Qu'en pensez-vous ?
Voir aussi
AlphaGo arrive en tête du classement des meilleurs joueurs de Go au monde la première fois pour un programme informatique
AlphaStar, la nouvelle IA de DeepMind, a écrasé des joueurs pro de Starcraft II, un jeu vidéo conçu pour défier l'intellect humain
OpenAI d'Elon Musk crée une IA capable de battre des humains sur Dota 2 un jeu vidéo de type arène de bataille en 3D
OpenAI Five, l'équipe d'algorithmes d'IA d'OpenAI, écrase les champions du monde de Dota 2
Et tout le monde peut jouer contre elle
OpenAI Five, l'équipe d'algorithmes d'IA d'OpenAI, écrase les champions du monde de Dota 2
Et tout le monde peut jouer contre elle
Le , par Bill Fassinou
Une erreur dans cette actualité ? Signalez-nous-la !