Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains,

Après les controverses suscitées par ses systèmes d'IA BlenderBot 3 et Galactica

Le 23 novembre 2022 à 21:42, par Bill Fassinou

65PARTAGES

Meta, la société mère de Facebook, a présenté mardi Cicero, un agent d'IA qui serait capable de jouer au jeu de stratégie classique Diplomacy à un niveau comparable à celui de la plupart des joueurs humains. L'équipe de Cicero la présente comme une IA qui négocie, persuade et coopère avec les gens en se basant sur le langage naturel. Il s'agit d'une réalisation importante dans le domaine du traitement du langage naturel (TLN), car le jeu exige des compétences approfondies en matière de négociation interpersonnelle, ce qui implique que Cicero a acquis une certaine maîtrise du langage nécessaire pour gagner la partie. Mais l'on craint qu'elle soit détournée de son usage initial.

Cicero : une IA qui serait capable de jouer au jeu de stratégie Diplomacy comme des humains

Avant que Deep Blue ne batte Garry Kasparov aux échecs en 1997, les jeux de société constituaient déjà une mesure utile des réalisations de l'IA. En 2015, une autre barrière est tombée lorsqu'AlphaGo a battu le maître du Go, Lee Sedol. Ces deux jeux suivent un ensemble relativement clair de règles analytiques (bien que les règles du Go soient généralement simplifiées pour l'IA par ordinateur). Mais avec Diplomacy, une grande partie du gameplay implique des compétences sociales. Les joueurs doivent faire preuve d'empathie, utiliser un langage naturel et établir des relations pour gagner, une tâche potentiellement difficile pour un joueur informatique.

Développé dans les années 1950 et actuellement publié par Hasbro, Diplomacy est axé sur la communication et la négociation entre les joueurs, qui jouent le rôle de sept puissances européennes au début du XXe siècle. Il est considéré par certains joueurs comme le moyen idéal de perdre ses amis. Diplomacy simule la prise de territoires sur une carte de l'Europe. Plutôt que de jouer à tour de rôle, les joueurs écrivent leurs mouvements à l'avance et les exécutent simultanément. Pour éviter de faire des mouvements qui sont bloqués parce qu'un adversaire a fait un contre mouvement, les joueurs communiquent entre eux en privé.

Ils discutent des actions coordonnées potentielles, puis inscrivent leurs mouvements sur papier, en respectant ou en violant les engagements pris envers les autres joueurs. L'accent mis par Diplomacy sur la communication, la confiance et la trahison en fait un défi différent des jeux plus axés sur les règles et les ressources comme les échecs et le Go. Dans cette optique, Meta s'est demandé : « pouvons-nous construire des agents plus efficaces et plus flexibles, capables d'utiliser le langage pour négocier, persuader et travailler avec les gens pour atteindre des objectifs stratégiques, comme le font les humains ? ».

Dans un billet de blogue publié mardi, Meta affirme que Cicero est essentiellement un chatbot qui peut négocier avec d'autres joueurs de Diplomacy pour effectuer des mouvements efficaces dans le jeu. Selon l'entreprise, Cicero a acquis ses compétences en jouant à une version en ligne de Diplomacy sur webDiplomacy.net. Au fil du temps, il serait devenu un maître du jeu, obtenant "plus du double du score moyen" des joueurs humains et se classant parmi les 10 % de personnes ayant joué plus d'une fois. Les chercheurs de Meta affirment que "Cicero manipule avec soin le langage naturel et est capable de tromper les joueurs humains".

« Diplomacy est considéré depuis des décennies comme un grand défi quasi impossible en matière d'IA, car elle exige des joueurs qu'ils maîtrisent l'art de comprendre les motivations et les perspectives des autres, qu'ils élaborent des plans complexes et ajustent leurs stratégies, et qu'ils utilisent le langage naturel pour conclure des accords avec d'autres personnes, les convaincre de former des partenariats et des alliances, et plus encore. Cicero est si efficace pour utiliser le langage naturel afin de négocier avec les gens dans Diplomacy qu'ils ont souvent préféré travailler avec Cicero plutôt qu'avec d'autres participants humains », a déclaré Meta.

Cicero serait capable de coopérer avec les joueurs humains ou de les tromper

Alors que les agents d'IA pour des jeux comme les échecs peuvent être entraînés par le biais de l'apprentissage par renforcement, la modélisation du jeu coopératif de Diplomacy a nécessité une technique différente. Selon Meta, l'approche classique impliquerait un apprentissage supervisé, par lequel un agent serait formé à l'aide de données étiquetées provenant de parties de Diplomacy passées. Mais l'apprentissage supervisé seul produit un agent d'IA crédule qui peut être facilement manipulé par des joueurs menteurs. L'entreprise a annoncé que ses chercheurs ont mis en place une nouvelle approche plus adaptée à Diplomacy.

Pour créer Cicero, Meta a rassemblé des modèles d'IA pour le raisonnement stratégique (similaire à AlphaGo) et le traitement du langage naturel (similaire à GPT-3) et les a intégrés dans un seul agent. Pendant chaque partie, Cicero examine l'état du plateau de jeu et l'historique des conversations et prédit comment les autres joueurs vont agir. Il élabore un plan qu'il exécute grâce à un modèle de langage capable de générer un dialogue de type humain, ce qui lui permet de se coordonner avec les autres joueurs. Meta appelle les compétences en langage naturel de Cicero un "modèle de dialogue contrôlable".

Cicero est basé sur un modèle de langage de type BART à 2,7 milliards de paramètres. Comme GPT-3, l'IA de Meta est préentraînée sur du texte provenant d'Internet et augmenté à l'aide d'un ensemble de données de plus de 40 000 parties de Diplomacy jouées sur webDiplomacy.net. Selon le billet de blogue de Meta, ces parties contenaient plus de 12 millions de messages échangés entre les joueurs. Cicero comprend donc un algorithme de planification itératif appelé piKL, qui permet d'affiner une prédiction initiale des politiques des autres joueurs et des mouvements prévus, sur la base du dialogue entre le robot et les autres joueurs.

L'algorithme tente d'améliorer les ensembles de mouvements prévus pour les autres joueurs en évaluant différents choix qui produiraient de meilleurs résultats. Meta a déclaré que le modèle résultant maîtrisait les subtilités d'un jeu complexe. « Cicero peut déduire, par exemple, que plus tard dans le jeu, il aura besoin du soutien d'un joueur particulier, puis élaborer une stratégie pour gagner la faveur de cette personne - et même reconnaître les risques et les opportunités que ce joueur voit de son point de vue particulier », explique Meta. Andrew Goff, triple champion du monde de Diplomacy, a salué l'approche sans passion de Cicero.

« Beaucoup de joueurs humains adoucissent leur approche ou commencent à être motivés par la vengeance, mais Cicero ne fait jamais cela. Il joue simplement la situation comme il la voit. Il est donc impitoyable dans l'exécution de sa stratégie, mais il n'est pas impitoyable au point d'ennuyer les autres joueurs », a déclaré Goff. Meta a annoncé que Cicero a joué anonymement 40 parties de Diplomacy dans une ligue "blitz" sur webDiplomacy.net entre le 19 août et le 13 octobre 2022, et a terminé dans les 10 % des participants ayant joué plus d'une partie. Et parmi les 19 qui ont joué cinq parties ou plus, Cicéron aurait terminé deuxième.

Sur l'ensemble des 40 parties, le score moyen de Cicéron serait de 25,8 %, soit plus du double de la moyenne de 12,4 % parmi ses 82 adversaires. Bien que Cicero fasse encore quelques erreurs, les ingénieurs de Meta prévoient que leurs recherches seront utiles pour d'autres applications, comme les robots de conversation capables de tenir de longues conversations ou les personnages de jeux vidéo qui comprennent les motivations des joueurs et peuvent ainsi interagir plus efficacement. Le code de Cicero a été publié sous une licence open source dans l'espoir que la communauté des développeurs d'IA puisse l'améliorer davantage.

Les récentes IA de Meta se sont révélées racistes et ont diffusé de fausses informations

Les recherches de Meta sur Cicero ont été publiées dans la revue Science sous le titre "Human-level play in the game of Diplomacy by combining language models with strategic reasoning". En ce qui concerne les applications plus larges, Meta suggère que sa recherche sur Cicero pourrait "atténuer les barrières de communication" entre les humains et l'IA, par exemple en maintenant une conversation à long terme pour enseigner à quelqu'un une nouvelle compétence. Elle pourrait également alimenter un jeu vidéo dans lequel les PNJ pourraient parler comme des humains, comprendre les motivations du joueur et s'adapter en cours de route.

Selon les analystes, il s'agit d'une réalisation importante dans le domaine du traitement du langage naturel. Cela pourrait aider les gens à oublier les débuts, la semaine dernière, de Galactica, un grand modèle de langage que les ingénieurs de Meta ont formé sur des articles scientifiques et qui présentait des faussetés comme des faits, et qui a été mis hors ligne après trois jours de critiques de la part de la communauté scientifique. Galactica a été conçu comme un moteur de recherche universitaire sous stéroïdes et était censé aider les scientifiques. Mais au lieu de cela, il a craché sans réfléchir des absurdités...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains,

Après les controverses suscitées par ses systèmes d'IA BlenderBot 3 et Galactica

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains, Après les controverses suscitées par ses systèmes d'IA BlenderBot 3 et Galactica

Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains,

Après les controverses suscitées par ses systèmes d'IA BlenderBot 3 et Galactica