Cicero : une IA qui serait capable de jouer au jeu de stratégie Diplomacy comme des humains
Avant que Deep Blue ne batte Garry Kasparov aux échecs en 1997, les jeux de société constituaient déjà une mesure utile des réalisations de l'IA. En 2015, une autre barrière est tombée lorsqu'AlphaGo a battu le maître du Go, Lee Sedol. Ces deux jeux suivent un ensemble relativement clair de règles analytiques (bien que les règles du Go soient généralement simplifiées pour l'IA par ordinateur). Mais avec Diplomacy, une grande partie du gameplay implique des compétences sociales. Les joueurs doivent faire preuve d'empathie, utiliser un langage naturel et établir des relations pour gagner, une tâche potentiellement difficile pour un joueur informatique.
Développé dans les années 1950 et actuellement publié par Hasbro, Diplomacy est axé sur la communication et la négociation entre les joueurs, qui jouent le rôle de sept puissances européennes au début du XXe siècle. Il est considéré par certains joueurs comme le moyen idéal de perdre ses amis. Diplomacy simule la prise de territoires sur une carte de l'Europe. Plutôt que de jouer à tour de rôle, les joueurs écrivent leurs mouvements à l'avance et les exécutent simultanément. Pour éviter de faire des mouvements qui sont bloqués parce qu'un adversaire a fait un contre mouvement, les joueurs communiquent entre eux en privé.
Ils discutent des actions coordonnées potentielles, puis inscrivent leurs mouvements sur papier, en respectant ou en violant les engagements pris envers les autres joueurs. L'accent mis par Diplomacy sur la communication, la confiance et la trahison en fait un défi différent des jeux plus axés sur les règles et les ressources comme les échecs et le Go. Dans cette optique, Meta s'est demandé : « pouvons-nous construire des agents plus efficaces et plus flexibles, capables d'utiliser le langage pour négocier, persuader et travailler avec les gens pour atteindre des objectifs stratégiques, comme le font les humains ? ».
Dans un billet de blogue publié mardi, Meta affirme que Cicero est essentiellement un chatbot qui peut négocier avec d'autres joueurs de Diplomacy pour effectuer des mouvements efficaces dans le jeu. Selon l'entreprise, Cicero a acquis ses compétences en jouant à une version en ligne de Diplomacy sur webDiplomacy.net. Au fil du temps, il serait devenu un maître du jeu, obtenant "plus du double du score moyen" des joueurs humains et se classant parmi les 10 % de personnes ayant joué plus d'une fois. Les chercheurs de Meta affirment que "Cicero manipule avec soin le langage naturel et est capable de tromper les joueurs humains".
« Diplomacy est considéré depuis des décennies comme un grand défi quasi impossible en matière d'IA, car elle exige des joueurs qu'ils maîtrisent l'art de comprendre les motivations et les perspectives des autres, qu'ils élaborent des plans complexes et ajustent leurs stratégies, et qu'ils utilisent le langage naturel pour conclure des accords avec d'autres personnes, les convaincre de former des partenariats et des alliances, et plus encore. Cicero est si efficace pour utiliser le langage naturel afin de négocier avec les gens dans Diplomacy qu'ils ont souvent préféré travailler avec Cicero plutôt qu'avec d'autres participants humains », a déclaré Meta.
Cicero serait capable de coopérer avec les joueurs humains ou de les tromper
Alors que les agents d'IA pour des jeux comme les échecs peuvent être entraînés par le biais de l'apprentissage par renforcement, la modélisation du jeu coopératif de Diplomacy a nécessité une technique différente. Selon Meta, l'approche classique impliquerait un apprentissage supervisé, par lequel un agent serait formé à l'aide de données étiquetées provenant de parties de Diplomacy passées. Mais l'apprentissage supervisé seul produit un agent d'IA crédule qui peut être facilement manipulé par des joueurs menteurs. L'entreprise a annoncé que ses chercheurs ont mis en place une nouvelle approche plus adaptée à Diplomacy.
Pour créer Cicero, Meta a rassemblé des modèles d'IA pour le raisonnement stratégique (similaire à AlphaGo) et le traitement du langage naturel (similaire à GPT-3) et les a intégrés dans un seul agent. Pendant chaque partie, Cicero examine l'état du plateau de jeu et l'historique des conversations et prédit comment les autres joueurs vont agir. Il élabore un plan qu'il exécute grâce à un modèle de langage capable de générer un dialogue de type humain, ce qui lui permet de se coordonner avec les autres joueurs. Meta appelle les compétences en langage naturel de Cicero un "modèle de dialogue contrôlable".
Cicero est basé sur un modèle de langage de type BART à 2,7 milliards de paramètres. Comme GPT-3, l'IA de Meta est préentraînée sur du texte provenant d'Internet et augmenté à l'aide d'un ensemble de données de plus de 40 000 parties de Diplomacy jouées sur webDiplomacy.net. Selon le billet de blogue de Meta, ces parties contenaient plus de 12 millions de messages échangés entre les joueurs. Cicero comprend donc un algorithme de planification itératif appelé piKL, qui permet d'affiner une prédiction initiale des politiques des autres joueurs et des mouvements prévus, sur la base du dialogue entre le robot et les autres joueurs.
L'algorithme tente d'améliorer les ensembles de mouvements prévus pour les autres joueurs en évaluant différents choix qui produiraient de meilleurs résultats. Meta a déclaré que le modèle résultant maîtrisait les subtilités d'un jeu complexe. « Cicero peut déduire, par exemple, que plus tard dans le jeu, il aura besoin du soutien d'un joueur particulier, puis élaborer une stratégie pour gagner la faveur de cette personne - et même reconnaître les risques et les opportunités que ce joueur voit de son point de vue particulier », explique Meta. Andrew Goff, triple champion du monde de Diplomacy, a salué l'approche sans passion de Cicero.
« Beaucoup de joueurs humains adoucissent leur approche ou commencent à être motivés par la vengeance, mais Cicero ne fait jamais cela. Il joue simplement la situation comme il la voit. Il est donc impitoyable dans l'exécution de sa stratégie, mais il n'est pas impitoyable au point d'ennuyer les autres joueurs », a déclaré Goff. Meta a annoncé que Cicero a joué anonymement 40 parties de Diplomacy dans une ligue "blitz" sur webDiplomacy.net entre le 19 août et le 13 octobre 2022, et a terminé dans les 10 % des participants ayant joué plus d'une partie. Et parmi les 19 qui ont joué cinq parties ou plus, Cicéron aurait terminé deuxième.
Sur l'ensemble des 40 parties, le score moyen de Cicéron serait de 25,8 %, soit plus du double de la moyenne de 12,4 % parmi ses 82 adversaires. Bien que Cicero fasse encore quelques erreurs, les ingénieurs de Meta prévoient que leurs recherches seront utiles pour d'autres applications, comme les robots de conversation capables de tenir de longues conversations ou les personnages de jeux vidéo qui comprennent les motivations des joueurs et peuvent ainsi interagir plus efficacement. Le code de Cicero a été publié sous une licence open source dans l'espoir que la communauté des développeurs d'IA puisse l'améliorer davantage.
Les récentes IA de Meta se sont révélées racistes et ont diffusé de fausses informations
Les recherches de Meta sur Cicero ont été publiées dans la revue Science sous le titre "Human-level play in the game of Diplomacy by combining language models with strategic reasoning". En ce qui concerne les applications plus larges, Meta suggère que sa recherche sur Cicero pourrait "atténuer les barrières de communication" entre les humains et l'IA, par exemple en maintenant une conversation à long terme pour enseigner à quelqu'un une nouvelle compétence. Elle pourrait également alimenter un jeu vidéo dans lequel les PNJ pourraient parler comme des humains, comprendre les motivations du joueur et s'adapter en cours de route.
Selon les analystes, il s'agit d'une réalisation importante dans le domaine du traitement du langage naturel. Cela pourrait aider les gens à oublier les débuts, la semaine dernière, de Galactica, un grand modèle de langage que les ingénieurs de Meta ont formé sur des articles scientifiques et qui présentait des faussetés comme des faits, et qui a été mis hors ligne après trois jours de critiques de la part de la communauté scientifique. Galactica a été conçu comme un moteur de recherche universitaire sous stéroïdes et était censé aider les scientifiques. Mais au lieu de cela, il a craché sans réfléchir des absurdités biaisées et incorrectes.
Quelques heures à peine après la mise en ligne, les utilisateurs de Twitter ont commencé à publier des exemples où l'IA de Meta générait des recherches complètement fausses et racistes. Un utilisateur a découvert que Galactica inventait des informations sur des chercheurs de l'université de Stanford créant un logiciel "gaydar" pour trouver les homosexuels sur Facebook. Un autre a réussi à faire en sorte que le robot crée une fausse étude sur les avantages de manger du verre pilé. L'agent d'IA de Meta filtre aussi complètement les requêtes telles que la théorie des homosexuels, le sida et le racisme.
Cependant, l'un des aspects les plus déconcertants de cette affaire est sans doute le fait qu'il créait des études entièrement fausses et les attribuait à de véritables scientifiques. Michael Black, directeur de l'Institut Max Planck pour les systèmes intelligents en Allemagne, a signalé dans un fil de discussion sur Twitter plusieurs cas dans lesquels Galactica créait de fausses citations de chercheurs du monde réel. Dans le même temps, ces citations étaient attribuées à des textes très convaincants générés par le modèle, ce qui semblait, à première vue, tout à fait plausible et réel. L'IA BlenderBot 3 de Meta avait suscité les mêmes polémiques en août.
Les premiers tests de BlenderBot 3, un chatbot publié par Meta en août, ont révélé qu'il est loin d'être l'agent conversationnel hautement performant que l'entreprise a prétendu. Par exemple, BlenderBot 3 a dit du PDG Mark Zuckerberg qu'il est "effrayant et manipulateur". Il a également affirmé que "Zuckerberg est un bon homme d'affaires, mais ses pratiques commerciales ne sont pas toujours éthiques". D'autres conversations avec BlenderBot 3 ont montré qu'il comporte des biais raciaux et répand des théories du complot. Il a décrit Facebook comme ayant des problèmes de confidentialité et que la plateforme répand de fausses informations.
Par ailleurs, Cicero de Meta pourrait être utilisée pour manipuler les humains en se faisant passer pour des personnes et en les trompant de manière potentiellement dangereuse, selon le contexte. Ainsi, Meta espère que d'autres chercheurs pourront s'appuyer sur son code "de manière responsable". Il affirme avoir pris des mesures pour détecter et supprimer les "messages toxiques dans ce nouveau domaine", ce qui fait probablement référence au dialogue que Cicero a appris des textes Internet qu'il a ingérés, ce qui constitue toujours un risque pour les grands modèles de langage.
Sources : Meta, Cicero (PDF), Article des chercheurs de Meta dans la revus Science, Référentiel GitHub du projet Cicero
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'IA Cicero de Meta ?
Selon vous, quels pourrait être les cas d'utilisation d'une telle IA ?
Selon vous, Cicero pourrait-elle être détournée de son usage initial ? Si oui, à quelle fin ?
Voir aussi
Le nouveau chatbot d'IA de Meta affirme que le PDG Mark Zuckerberg est "effrayant et manipulateur", l'agent conversationnel tient également des propos racistes et répand des théories du complot
Le responsable de l'IA de Meta publie un document sur la création d'une intelligence artificielle "autonome", et suggère que les approches actuelles ne mèneront jamais à une véritable intelligence
Meta, la société mère de Facebook, licencie 60 personnes « au hasard » à l'aide d'un algorithme, Xsolla, une société dans l'industrie du jeu, licencie 150 employés également à l'aide d'un algorithme