Les programmes de DeepMind ont montré les progrès dans les recherches en intelligence artificielle. Par exemple, une intelligence artificielle développée par DeepMind appelée AlphaStar a neutralisé deux joueurs professionnels de StarCraft II en janvier, bien que dans des conditions restreintes. Mais DeepMind n’est pas forcément intéressé par cette technologie pour rendre les jeux plus amusants ou plus difficiles. Au lieu de cela, la filiale d’Alphabet utilise le monde numérique de Quake III Arena pour apprendre à l'IA à imiter le comportement humain dans le monde réel.
« Le monde réel contient plusieurs agents, chacun apprenant et agissant indépendamment pour coopérer et rivaliser avec d'autres agents », a écrit DeepMind dans son article publié dans Science.
Un premier tournoi test avec des humains jouant à Capture The Flag avec et contre des agents entraînés et d’autres humains.
L’équipe a choisi une version modifiée du mode « Capturer le drapeau » de Quake III Arena, dans lequel deux équipes doivent s'affronter pour capturer le plus grand nombre de drapeaux en cinq minutes, car ses agents d’IA doivent non seulement lutter contre des adversaires, mais aussi naviguer dans un environnement et marquer des points.
La version de DeepMind de Quake III Arena n’est pas la même que le jeu auquel vous avez joué à l’époque des tamagotchis. La version modifiée du jeu utilise les cartes Quake III Arena. Il n’y a pas d’armes ou de modèles humains. Au lieu de cela, les joueurs IA sont de petites balles qui se déplacent à travers des cartes simplifiées. DeepMind a déclaré dans son blog que « tous les mécanismes de jeu restent les mêmes ». Au lieu de tirer sur des joueurs ennemis, les agents de l'IA se « taguent » pour se renvoyer à la base où ils vont réapparaître.
Il est crucial de noter que les agents IA participant à l’étude de DeepMind dans Quake III Arena n’avaient aucun accès aux informations de jeu qu’un joueur humain n’aurait pas, et n’ont pas appris les uns des autres. Au lieu de cela, ils ont appris indépendamment des données de pixels et d'un score de jeu. Cela a abouti à un « contrôle décentralisé au sein d'une équipe » d'agents IA, selon l’article.
« Ce qui rend ces résultats si intéressants, c'est que ces agents perçoivent leur environnement d'un point de vue personnel, comme le ferait un joueur humain », a déclaré le chercheur de DeepMind, Thore Graepel, dans un communiqué. « Pour apprendre à jouer de manière tactique et à collaborer avec leurs coéquipiers, ces agents doivent s’appuyer sur les informations communiquées par les résultats du jeu - sans qu’un enseignant ou un entraîneur ne leur dise quoi faire ».
Le système a fonctionné. DeepMind a utilisé un système de tournois avec sa version modifiée de Quake III Arena qui opposait 40 joueurs humains à l’IA entraînée de la société pour calculer les niveaux de compétence de l’IA. Certains agents ont été capables de surpasser même le taux de victoire des humains hautement qualifiés. Cela a été documenté à l'aide du système d'évaluation Elo, un système d'évaluation qui classe les joueurs en fonction de la probabilité de victoire.
« Les performances supérieures de nos agents pourraient être le résultat de leur traitement visuel et de leur contrôle moteur plus rapides », a écrit DeepMind sur son blog. « Cependant, en réduisant artificiellement cette précision et ce temps de réaction, nous avons constaté qu'il ne s'agissait que d'un facteur de succès ».
Source : DeepMind, Science