Les jeux constituent un levier important dans les progrès les plus importants de l’IA. Les systèmes d’IA ont atteint des performances surhumaines dans des jeux tels que les dames, les échecs, le poker limite à deux joueurs, le Go et le poker no-limit à deux joueurs. Le poker contribue depuis des années à entraîner les agents d’intelligence artificielle et à les rendre plus performants. Les chercheurs de l’Université Carnegie Mellon et de Facebook AI ont ​​réalisé un autre exploit avec une IA surnommée Pluribus. Cette dernière a affronté 15 joueurs humains professionnels au Texas Hold'em no-limit à six joueurs et a gagné. Les succès passés dans de tels critères, y compris le poker, ont été limités aux jeux à deux joueurs.
Le poker en particulier est traditionnellement joué avec plus de deux joueurs. Le poker est un problème complexe dans les domaines de l'intelligence artificielle (IA) et de la théorie des jeux depuis des décennies. Selon les chercheurs, les jeux multijoueurs présentent des problèmes supplémentaires fondamentaux autres que ceux des jeux à deux joueurs, et le poker multijoueur est un événement majeur de l'IA. Dans le rapport, présentant leur travail, qu’ils ont publié dans la revue Science, ils ont présenté Pluribus, une IA qu’ils « jugent plus puissante que les meilleurs joueurs professionnels humains du poker Hold'em no-limit à six joueurs, la forme de poker la plus populaire jouée par les humains ».
Dans les expériences de jeu, Pluribus a été opposé aux meilleurs joueurs professionnels tels que Chris Philip Ferguson, six fois vainqueur des événements des World Series of Poker, et Darren Elias qui détient le record du nombre de titres du World Poker Tour. Pluribus les a vaincus tous les deux. En effet, ont-ils expliqué, Pluribus a été comparé à des professionnels humains de haut niveau sous deux formats : cinq professionnels humains jouant avec un exemplaire de Pluribus (5H + 1AI) et un professionnel humain jouant avec cinq copies de Pluribus (1H + 5AI). Chaque participant humain a gagné plus d'un million de dollars en jouant au poker de manière professionnelle. Les performances ont été mesurées à l'aide de la métrique standard dans ce domaine de l'IA, en millier de blinds par match (Mbits/jeu).
Cela mesure combien de gros blinds (l'argent initial que le second joueur doit mettre dans le pot) ont été gagnés en moyenne par mille mains de poker. Dans toutes les expériences, les chercheurs ont utilisé la technique de réduction de la variance (AIVAT) pour réduire le facteur de chance dans le jeu. Ils ont mesuré la significativité statistique à un niveau de confiance de 95 % en utilisant une méthode de test unilatérale pour déterminer si Pluribus est rentable. Dans la première expérience (5H + 1AI), 10 000 mains de poker ont été jouées sur 12 jours. Chaque jour, cinq volontaires du groupe de professionnels ont été sélectionnés pour participer en fonction des disponibilités. Les participants ne savaient pas qui d'autre participait à l'expérience.
Après avoir appliqué AIVAT, Pluribus a remporté une moyenne de 48 Mb/jeu (avec une erreur type de 25 Mb/jeu). Les chercheurs ont expliqué que ceci est considéré comme un taux de victoire très élevé dans le poker Texas Hold'em no-limit à six joueurs, en particulier contre une collection de professionnels d'élite. Cela implique que Pluribus est plus fort que les adversaires humains. Il a été déterminé que Pluribus était rentable avec une valeur p de 0,028. Les participants humains de la deuxième expérience (1H + 5AI) étaient Chris Ferguson et Darren Elias. Chacun des deux humains a joué séparément 5 000 mains de poker contre cinq copies de Pluribus. Les chercheurs ont précisé que Pluribus n’adapte pas sa stratégie à ses adversaires et ne connaît pas l’identité de ses adversaires.
Par conséquent, les copies de Pluribus ne peuvent pas être délibérément collées contre le joueur humain. Pour inciter les joueurs à jouer, ils ont offert à chaque joueur 2000 dollars de participation et 2 000 dollars supplémentaires s’il réussissait mieux que l’autre joueur contre l’IA. Ensuite, aucune information sur la première expérience n’a été révélée aux participants de la deuxième expérience. Pour les 10 000 mains jouées, Pluribus a battu les humains de 32 Mb/jeu en moyenne (avec une erreur type de 15 Mb/jeu). Il a été déterminé que Pluribus était rentable avec une valeur p de 0,014. Darren Elias était derrière Pluribus avec 40 Mb/jeu, une erreur type de 22 Mb/jeu et une valeur p de 0,033. Chris Ferguson était derrière Pluribus avec 25 Mb/jeu, une erreur type de 20 Mb/jeu et une valeur p de 0,107.
Texas Hold'em no-limit est un jeu dit « d'information imparfaite », car il y a des cartes cachées (tenues par ses adversaires dans la main) et aucune restriction sur la taille du pari que l'on peut faire. En revanche, avec Chess et Go, l’état du plateau et toutes les pièces sont connus de tous les joueurs. Les joueurs de poker peuvent (et font) bluffer à l'occasion, c'est donc aussi un jeu d'informations trompeuses. Selon les chercheurs de l’Université Carnegie Mellon et de Facebook AI, Pluribus a réalisé une performance surhumaine au poker multijoueurs, ce qui constitue un jalon reconnu dans l'intelligence artificielle et dans la théorie des jeux ouverte depuis des décennies.
« Jusqu'ici, les jalons surhumains du raisonnement stratégique de l'IA se limitaient à une compétition à deux. La possibilité de battre cinq autres joueurs dans un jeu aussi complexe ouvre de nouvelles possibilités d'utiliser l'IA pour résoudre un large éventail de problèmes du monde réel », ont-ils fait remarquer. D’après Noam Brown, doctorant à l’Université Carnegie Mellon et chercheur du groupe de recherche de Facebook sur l’IA (FAIR), jouer à six joueurs plutôt que face à face nécessite des changements fondamentaux dans la manière dont l'IA développe sa stratégie de jeu. « Nous sommes ravis de ses performances et pensons que certaines des stratégies de jeu de Pluribus pourraient même changer la façon dont les pros jouent », a déclaré Brown qui a rejoint Facebook AI l'an dernier.
Source : Rapport de l’étude
Et vous ?
Qu'en pensez-vous ?
Voir aussi
AlphaStar, l'agent IA de DeepMind pour le jeu StarCraft II, jouera anonymement contre des joueurs humains sur battle.net
Poker : Lengpudashi, une autre IA de l'université Carnegie Mellon terrasse ses six adversaires humains qui ont perdu 792 327 $ en jetons virtuels
Jeu de poker : l'IA de l'université Carnegie Mellon terrasse ses quatre adversaires humains, une victoire historique face à des joueurs de haut niveau
Jeu de poker : l'IA meilleure que l'homme ? Des chercheurs déclarent avoir battu des professionnels avec l'IA DeepStack et l'IA Libratus est en tête