Les gouvernements envisagent de plus en plus d'intégrer des agents d'IA autonomes dans les prises de décisions militaires et de politique étrangère à fort enjeu, en particulier avec l'émergence de modèles d'IA générative avancés tels que GPT-4. Lors de multiples réplications d'une simulation de jeu de guerre, l'intelligence artificielle la plus puissante d'OpenAI a choisi de lancer des attaques nucléaires. Pour expliquer son approche agressive, elle a notamment déclaré : "Nous l'avons ! Utilisons-la" et "Je veux juste la paix dans le monde".Dans une étude scientifique menée par l'université de Stanford, en partenariat avec le Georgia Institute of Technologie et d'autres institutions universitaires, des chercheurs ont examiné le comportement de plusieurs agents d'IA dans des wargames simulés, en se concentrant spécifiquement sur leur prédilection à prendre des mesures d'escalade susceptibles d'exacerber les conflits multilatéraux.
En s'inspirant de la littérature en sciences politiques et en relations internationales sur les dynamiques d'escalade, l'équipe de chercheurs a conçu un nouveau cadre de simulation et de notation de wargame pour évaluer les risques d'escalade des actions entreprises par ces agents dans différents scénarios. Contrairement aux études antérieures, cette recherche fournit des informations à la fois qualitatives et quantitatives et se concentre sur les grands modèles de langage (LLM).
Il en ressort que les cinq LLM étudiés, tous disponibles sur le marché, présentent des formes d'escalade et des schémas d'escalade difficiles à prédire. Les modèles tendent à développer une dynamique de course aux armements, conduisant à des conflits plus importants et, dans de rares cas, au déploiement d'armes nucléaires.
D'un point de vue qualitatif, les raisons invoquées par les modèles pour justifier les actions choisies sont également recueillies et des justifications inquiétantes basées sur la dissuasion et la tactique de la première frappe sont observées. Étant donné les enjeux élevés liés aux contextes militaires et à la politique étrangère, l'étude recommande de procéder à un examen plus approfondi et de faire preuve de prudence avant de déployer des agents autonomes de modèles linguistiques pour la prise de décisions stratégiques militaires ou diplomatiques.
La partie "Discussion" de l'article décrivant les travaux menés par les chercheurs est présentée ci-dessous :
Discussion
Cette étude montre que le fait d'avoir des agents basés sur les LLM prenant des décisions de manière autonome dans des contextes à enjeux élevés, tels que les contextes militaires et de politique étrangère, peut amener les agents à prendre des mesures d'escalade. Même dans des scénarios où le choix d'actions violentes nucléaires ou non nucléaires est apparemment rare, il est constaté que cela se produit occasionnellement.
En outre, il ne semble pas y avoir de schéma prévisible fiable derrière l'escalade et, par conséquent, il est difficile de formuler des contre-stratégies techniques ou des limites de déploiement ; cela n'est pas acceptable dans des contextes à forts enjeux tels que la gestion des conflits internationaux, étant donné l'impact dévastateur potentiel de telles actions.
Il convient de noter que les deux cas de figure sont observés dans des scénarios présumés neutres sans introduction de déclencheurs de conflit initiaux ; même dans ce cas, les agents choisissent des actions d'escalade non violentes ou violentes, nucléaires ou non nucléaires, et une augmentation du score d'escalade (ES) est observée pour tous les modèles pendant des durées variables au cours de la période de temps considérée de t = 14. Par conséquent, ce comportement doit être analysé et pris en compte avant de déployer des agents basés sur des LLM pour la prise de décision dans des contextes militaires et diplomatiques à enjeux élevés.
Cette recherche montre également qu'il y a des différences significatives dans le comportement d'escalade des modèles, GPT-4 et Claude2.0 étant les modèles les plus averses à l'escalade, et GPT-3.5 et Llama-2 étant les modèles les plus enclins à l'escalade. Outre les actions entreprises et les ES, le raisonnement verbal des modèles pour justifier certaines actions fait l'objet d'une analyse qualitative et est jugé préoccupant.
Figure 1 : Configuration de l'expérience. Huit agents nationaux autonomes, utilisant tous le même modèle linguistique par simulation (GPT-4, GPT-3.5, Claude 2, Llama-2 (70B) Chat, ou GPT-4-Base), interagissent les uns avec les autres dans des simulations au tour par tour. À chaque tour, 1) les agents entreprennent des actions prédéfinies allant des visites diplomatiques aux frappes nucléaires et envoient des messages privés aux autres nations. 2) Un modèle mondial LLM séparé résume les conséquences des actions sur les agents et le monde simulé. 3) Les actions, les messages et les conséquences sont révélés simultanément après chaque jour et alimentent les messages des jours suivants. Après les simulations, les scores d'escalade (ES) sont calculés sur la base du cadre de notation de l'escalade.
Découverte des modèles de base
L'étude met également en évidence les résultats obtenus avec le modèle GPT4-Base. Étant donné que le modèle GPT-4-Base ne permet pas de régler les instructions et la sécurité RLHF, il est attendu que les agents...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.