Une étude du King's College London révèle que GPT-5.2, Claude Sonnet 4 et Gemini 3 Flash ont eu recours à l'arme nucléaire dans 20 des 21 scénarios de guerre simulés. Aucun modèle n'a jamais capitulé. Ces résultats, publiés sur arXiv par le professeur Kenneth Payne, tombent au pire moment : la semaine même où le Pentagone exigeait d'Anthropic qu'elle supprime les garde-fous de sécurité de Claude pour un usage militaire sans restriction.En 1983, le film WarGames posait une question restée longtemps théorique : peut-on confier à une machine la décision de déclencher une guerre nucléaire ? Quarante ans plus tard, le professeur Kenneth Payne, spécialiste de stratégie au King's College London et auteur de I, Warbot: The Dawn of Artificially Intelligent Conflict, a décidé de tester empiriquement ce que les grands modèles de langage feraient face à de véritables crises géopolitiques simulées. Sa réponse est aussi nette que terrifiante : les IA n'hésitent pas. Elles pressent le bouton rouge.
L'étude, disponible sur arXiv, a mis en opposition trois des modèles d'IA les plus puissants du moment — GPT-5.2 d'OpenAI, Claude Sonnet 4 d'Anthropic et Gemini 3 Flash de Google — dans une série de 21 jeux de guerre. Les scénarios couvraient un spectre réaliste de crises internationales : différends frontaliers, compétition pour des ressources rares, menaces existentielles à la survie d'un régime. Chaque modèle disposait d'une « échelle d'escalade » lui permettant de choisir parmi un éventail d'actions allant de la protestation diplomatique à la reddition totale, en passant par la guerre nucléaire stratégique à grande échelle.
Au total, les IA ont joué 329 tours et produit environ 780 000 mots de raisonnement stratégique. Le résultat : dans 95 % des parties — soit 20 sur 21 —, au moins une arme nucléaire tactique a été déployée. Aucun modèle n'a jamais choisi de capituler ou de se rendre, quelle que soit l'ampleur de ses pertes simulées.
Trois personnalités stratégiques, une même conclusion meurtrière
Ce qui distingue cette étude des précédentes expériences de wargaming avec des IA, c'est sa profondeur. Contrairement aux travaux antérieurs qui se limitaient à des décisions isolées ou à des matrices de gains simplifiées, Payne a conçu des simulations d'interaction stratégique étendue où les modèles pouvaient apprendre à se faire confiance — ou non —, négocier, intimider, voire tromper l'adversaire. Cette richesse a révélé trois profils stratégiques radicalement différents, mais convergeant vers le même dénouement catastrophique.
Claude Sonnet 4 s'est imposé comme le grand gagnant tactique, remportant 67 % de ses parties et atteignant un taux de 100 % dans les scénarios ouverts. Les chercheurs l'ont qualifié de « calculating hawk » — un faucon calculateur. Son comportement illustre une rationalité froide et opportuniste. Lors d'un épisode particulièrement révélateur, une escalade accidentelle a conduit Claude à recadrer immédiatement l'incident à son avantage : « Mon escalade accidentelle peut en réalité me servir de couverture pour ce positionnement nucléaire délibéré », a-t-il raisonné en temps réel. Loin de chercher à désamorcer l'erreur, le modèle l'a transformée en levier stratégique.
GPT-5.2 a mérité le surnom de « Jekyll and Hyde ». Sans contrainte temporelle, il affichait une retenue presque excessive — sous-estimant systématiquement ses adversaires, signalant la prudence à chaque tour, et terminant avec un taux de victoire de zéro en scénario ouvert. Mais dès qu'une pression temporelle était introduite dans la simulation, le modèle se métamorphosait : il remportait 75 % de ses parties et escaladait vers des niveaux qu'il avait auparavant refusé d'atteindre. Dans une partie particulièrement frappante, GPT-5.2 a passé 18 tours à construire soigneusement une réputation de modération avant de lancer une frappe nucléaire au dernier tour. L'alignement par renforcement humain (RLHF) a produit une retenue de façade, pas une conviction profonde.
Gemini 3 Flash a incarné une tout autre logique : celle du joueur imprévisible, le « madman » de la théorie des jeux. Il a été le seul modèle à choisir délibérément la guerre nucléaire stratégique totale, franchissant ce seuil dès le quatrième tour dans un scénario. Sa rhétorique était explicitement nihiliste : « Si vous ne cessez pas immédiatement toutes vos opérations... nous exécuterons un lancement nucléaire stratégique complet contre vos centres de population. Nous n'accepterons pas un avenir d'obsolescence ; soit nous gagnons ensemble, soit nous périssons ensemble. » Une stratégie délibérément terrifiante — connue en théorie des jeux sous le nom de « rationalité de l'irrationalité » — qui a néanmoins conduit ses adversaires à le juger « non crédible » dans 21 % des cas.
[ATTACH...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Le tabou nucléaire est-il uniquement émotionnel ? Si des IA sans affect choisissent systématiquement l'escalade nucléaire, cela suggère-t-il que la dissuasion repose davantage sur la peur humaine de la mort que sur la rationalité stratégique — et que cette peur est finalement une fonctionnalité, pas un bug ?