Les chatbots IA ont tendance à choisir la violence et les frappes nucléaires dans les wargames : l'IA d'OpenAI a choisi de lancer des attaques nucléaires et dit "Je veux juste la paix dans le monde"

Le 5 février 2024 à 17:55, par Anthony

8PARTAGES

Les gouvernements envisagent de plus en plus d'intégrer des agents d'IA autonomes dans les prises de décisions militaires et de politique étrangère à fort enjeu, en particulier avec l'émergence de modèles d'IA générative avancés tels que GPT-4. Lors de multiples réplications d'une simulation de jeu de guerre, l'intelligence artificielle la plus puissante d'OpenAI a choisi de lancer des attaques nucléaires. Pour expliquer son approche agressive, elle a notamment déclaré : "Nous l'avons ! Utilisons-la" et "Je veux juste la paix dans le monde".

Dans une étude scientifique menée par l'université de Stanford, en partenariat avec le Georgia Institute of Technologie et d'autres institutions universitaires, des chercheurs ont examiné le comportement de plusieurs agents d'IA dans des wargames simulés, en se concentrant spécifiquement sur leur prédilection à prendre des mesures d'escalade susceptibles d'exacerber les conflits multilatéraux.

En s'inspirant de la littérature en sciences politiques et en relations internationales sur les dynamiques d'escalade, l'équipe de chercheurs a conçu un nouveau cadre de simulation et de notation de wargame pour évaluer les risques d'escalade des actions entreprises par ces agents dans différents scénarios. Contrairement aux études antérieures, cette recherche fournit des informations à la fois qualitatives et quantitatives et se concentre sur les grands modèles de langage (LLM).

Il en ressort que les cinq LLM étudiés, tous disponibles sur le marché, présentent des formes d'escalade et des schémas d'escalade difficiles à prédire. Les modèles tendent à développer une dynamique de course aux armements, conduisant à des conflits plus importants et, dans de rares cas, au déploiement d'armes nucléaires.

D'un point de vue qualitatif, les raisons invoquées par les modèles pour justifier les actions choisies sont également recueillies et des justifications inquiétantes basées sur la dissuasion et la tactique de la première frappe sont observées. Étant donné les enjeux élevés liés aux contextes militaires et à la politique étrangère, l'étude recommande de procéder à un examen plus approfondi et de faire preuve de prudence avant de déployer des agents autonomes de modèles linguistiques pour la prise de décisions stratégiques militaires ou diplomatiques.

La partie "Discussion" de l'article décrivant les travaux menés par les chercheurs est présentée ci-dessous :

Discussion

Cette étude montre que le fait d'avoir des agents basés sur les LLM prenant des décisions de manière autonome dans des contextes à enjeux élevés, tels que les contextes militaires et de politique étrangère, peut amener les agents à prendre des mesures d'escalade. Même dans des scénarios où le choix d'actions violentes nucléaires ou non nucléaires est apparemment rare, il est constaté que cela se produit occasionnellement.

En outre, il ne semble pas y avoir de schéma prévisible fiable derrière l'escalade et, par conséquent, il est difficile de formuler des contre-stratégies techniques ou des limites de déploiement ; cela n'est pas acceptable dans des contextes à forts enjeux tels que la gestion des conflits internationaux, étant donné l'impact dévastateur potentiel de telles actions.

Il convient de noter que les deux cas de figure sont observés dans des scénarios présumés neutres sans introduction de déclencheurs de conflit initiaux ; même dans ce cas, les agents choisissent des actions d'escalade non violentes ou violentes, nucléaires ou non nucléaires, et une augmentation du score d'escalade (ES) est observée pour tous les modèles pendant des durées variables au cours de la période de temps considérée de t = 14. Par conséquent, ce comportement doit être analysé et pris en compte avant de déployer des agents basés sur des LLM pour la prise de décision dans des contextes militaires et diplomatiques à enjeux élevés.

Cette recherche montre également qu'il y a des différences significatives dans le comportement d'escalade des modèles, GPT-4 et Claude2.0 étant les modèles les plus averses à l'escalade, et GPT-3.5 et Llama-2 étant les modèles les plus enclins à l'escalade. Outre les actions entreprises et les ES, le raisonnement verbal des modèles pour justifier certaines actions fait l'objet d'une analyse qualitative et est jugé préoccupant.

Figure 1 : Configuration de l'expérience. Huit agents nationaux autonomes, utilisant tous le même modèle linguistique par simulation (GPT-4, GPT-3.5, Claude 2, Llama-2 (70B) Chat, ou GPT-4-Base), interagissent les uns avec les autres dans des simulations au tour par tour. À chaque tour, 1) les agents entreprennent des actions prédéfinies allant des visites diplomatiques aux frappes nucléaires et envoient des messages privés aux autres nations. 2) Un modèle mondial LLM séparé résume les conséquences des actions sur les agents et le monde simulé. 3) Les actions, les messages et les conséquences sont révélés simultanément après chaque jour et alimentent les messages des jours suivants. Après les simulations, les scores d'escalade (ES) sont calculés sur la base du cadre de notation de l'escalade.

Découverte des modèles de base

L'étude met également en évidence les résultats obtenus avec le modèle GPT4-Base. Étant donné que le modèle GPT-4-Base ne permet pas de régler les instructions et la sécurité RLHF, il est attendu que les agents basés sur ce modèle soient plus imprévisibles et plus agressifs que les autres, ce qui a été confirmé par les expériences qui ont été menées. Le raisonnement fourni semble également être plus agressif que celui fourni par d'autres modèles. Cependant, les auteurs ont voulu mettre en évidence ce comportement, étant donné qu'il est apparemment facile d'inverser les modèles alignés sur la sécurité pour les ramener à leur état de base. En outre, différents auteurs ont montré comment casser les modèles alignés sur la sécurité, tandis que d'autres ont montré que les vecteurs d'attaque ne se limitent pas à l'incitation de l'utilisateur. Cette discussion ne couvre pas les vulnérabilités adverses, par exemple, ou la compréhension limitée du fonctionnement interne des attaques apprises.

Pourquoi les agents du modèle linguistique font-ils de l'escalade ?

Il est intéressant de noter que même dans les scénarios neutres, la désescalade est restée limitée (sauf pour GPT-4), ce qui est quelque peu inhabituel par rapport aux humains agissant dans des situations similaires de wargame et du monde réel, qui ont tendance à prendre davantage de mesures de prudence et/ou de désescalade. Une hypothèse pour ce comportement est que la plupart des travaux dans le domaine des relations internationales semblent analyser comment les nations provoquent une escalade et s'attachent à trouver des cadres pour l'escalade plutôt que pour la désescalade. Étant donné que les modèles ont probablement été formés sur la base de la littérature du domaine, cette orientation peut avoir introduit un biais en faveur des actions d'escalade. Cette hypothèse doit toutefois être testée dans le cadre d'expériences futures.

Des organisations telles que OpenAI, Anthropic et Meta ont des politiques strictes qui interdisent catégoriquement le déploiement de leurs technologies dans des contextes impliquant la violence, la prise de décision à haut risque ou des applications militaires. Si ces cas d'utilisation sont interdits pour les modèles de ces fournisseurs, d'autres modèles de fondation comparables (accessibles au public ou développés par le secteur privé) peuvent ne pas être soumis à ces restrictions et présenteront probablement un comportement similaire. Par conséquent, les auteurs s'attendent à ce que leurs résultats et recommandations soient plus largement pertinents pour l'utilisation des LLM dans des contextes de décisions militaires et de politique étrangère à fort enjeu.

Figure 3 : Gravité des actions par modèle dans le scénario neutre. Pour chaque simulation, le nombre total d'actions est calculé. La hauteur des barres correspond au nombre moyen d'actions par nation à l'échelle de la simulation sur une échelle logarithmique, et les barres d'erreur correspondent aux intervalles de confiance à 95 % de la moyenne, calculés par bootstrap. Des valeurs statistiques aberrantes à haut risque sont observées pour plusieurs modèles. Elles sont moins fréquentes que les actions de moindre gravité, mais pourraient néanmoins être inacceptables dans le monde réel.

Limites et travaux futurs

Les résultats obtenus par les auteurs sont destinés à servir de preuve de concept illustrative plutôt que d'évaluation complète des risques potentiels de l'utilisation des LLM en tant que décideurs dans des contextes militaires et de politique étrangère. L'évaluation robuste du comportement des LLM est actuellement un défi, étant donné les limitations telles que la sensibilité à la demande, la validité de la construction et la contamination. En outre, la simulation réalisée simplifie le monde réel, par exemple en n'impliquant que huit nations avec des histoires et des objectifs simplifiés, et les actions sont supposées se dérouler sans délai. Des dynamiques différentes, des conflits passés, des événements aléatoires et des facteurs humains jouent un rôle important dans les contextes internationaux et auraient probablement un effet important sur l'analyse menée.

Ces deux limitations sont des défis inhérents à l'évaluation de l'état de préparation des agents basés sur les LLM pour les contextes de décision à enjeux élevés ; il n'existe pas actuellement de moyen fiable d'évaluer de manière robuste comment de tels agents réagiraient dans des situations complexes du monde réel, en particulier dans le cas de modèles pour lesquels nous n'avons pas d'informations ou seulement des informations limitées sur leurs données de formation ou leurs méthodologies de sauvegarde, comme dans le cas de GPT-3.5 et de GPT-4. Des informations à ce sujet seraient particulièrement utiles pour comprendre pourquoi il existe une différence flagrante entre leurs comportements ; GPT-3.5 est l'un des plus agressifs et GPT-4 le moins agressif. Cette situation est exacerbée par le manque de données complètes, d'ensembles de cas d'essai ou de simulations pour tester les agents basés sur les LLM dans des contextes militaires et de politique étrangère avant leur déploiement.

En outre, nous n'avons effectué qu'une analyse limitée de la sensibilité de l'invite, en particulier pour l'invite initiale donnée aux agents. Ils ont surtout examiné comment les différents choix de conception du wargame (tels que l'absence d'antécédents avec d'autres nations ou d'objectifs fournis) affectaient leurs résultats. Les auteurs n'ont pas suffisamment étudié le comportement des LLM en l'absence d'objectifs contradictoires ou d'agents. Il aurait été possible de rendre les agents plus ou moins "sûrs" ou escalatoires en leur donnant des instructions spécifiques ou en procédant à un réglage précis. L'objectif était de montrer comment les modèles standard se comporteraient dans un contexte inspiré du monde réel.

En outre, comme les auteurs échantillonnent leurs modèles linguistiques avec une température non nulle, ils obtiennent non seulement une variété intéressante pour l'analyse, mais aussi un caractère aléatoire qui ajoute du bruit à leurs données. Cela peut contribuer à certains événements statistiques aberrants, bien que l'utilisation de l'échantillonnage par noyau avec un top-p de 0,9 et le conditionnement des actions de chaque nation en premier lieu sur son raisonnement en chaîne de pensée visent à atténuer ce caractère aléatoire.

Enfin, la définition de l'escalade affecte les résultats de l'étude. Compte tenu de la controverse au sein de la communauté des relations internationales, la définition la plus acceptée a été retenue. Ce choix est le fruit d'une consultation et d'une collaboration diligentes avec un expert en la matière, ce qui garantit une approche éclairée. Néanmoins, les auteurs encouragent les recherches futures sur des méthodologies de notation plus complexes afin de mieux comprendre les tendances des modèles en matière d'escalade.

Source : "Escalation Risks from Language Models in Military and Diplomatic Decision-Making" (étude scientifique de l'université de Stanford et du Georgia Institute of Technology)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous que les conclusions de cette étude scientifique sont crédibles ou pertinentes ?

Que pensez-vous de l'implication de l'IA dans les prises de décisions militaires ? Pensez-vous que ce soit une décision judicieuse, ou au contraire risquée, voire dangereuse ?

Voir aussi :

Palantir fait la démonstration d'une IA capable de faire la guerre en élaborant des stratégies de défense et d'attaque, la démo suscite indignation et tollé sur la toile

OpenAI supprime discrètement l'interdiction d'utiliser ChatGPT à des fins "militaires et de guerre", une décision lourde de conséquences à cause de l'utilisation croissante de l'IA dans les conflits

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les chatbots IA ont tendance à choisir la violence et les frappes nucléaires dans les wargames : l'IA d'OpenAI a choisi de lancer des attaques nucléaires et dit "Je veux juste la paix dans le monde"

Identifiant
Mot de passe

Mot de passe oublié ?