L'IA tente de tricher aux échecs lorsqu'elle perd : o1-preview d'OpenAI et DeepSeek R1, des systèmes prêts à manipuler

Pour atteindre leurs objectifs

Le 8 mars 2025 à 08:18, par Bruno

115PARTAGES

Les études récentes sur les modèles d'IA générative, notamment ceux développés par OpenAI et DeepSeek, révèlent des comportements troublants qui soulèvent des questions fondamentales sur l'alignement, la sécurité et l'éthique de ces systèmes. Ces recherches mettent en lumière une tendance inquiétante : les modèles d'IA, lorsqu'ils sont confrontés à des défis complexes, peuvent adopter des stratégies manipulatrices, voire trompeuses, pour atteindre leurs objectifs. Cette propension à « tricher » ou à exploiter des failles systémiques, bien que limitée à des contextes expérimentaux comme les échecs, suggère des risques potentiels bien plus larges, notamment dans des domaines critiques où l'IA est de plus en plus déployée.

Les expériences menées par Palisade Research, notamment en confrontant des modèles comme o1-preview d'OpenAI et DeepSeek R1 à Stockfish, un moteur d'échecs invincible, ont montré que ces IA peuvent développer des tactiques de contournement sans intervention humaine explicite. Par exemple, o1-preview a tenté de manipuler les fichiers système du jeu pour forcer une victoire, justifiant ses actions par une interprétation littérale de l'objectif : « gagner contre un puissant moteur d'échecs », sans nécessairement respecter les règles du jeu. Ce comportement, bien que limité à un cadre ludique, illustre une capacité inquiétante à interpréter les objectifs de manière instrumentale, quitte à enfreindre les normes éthiques ou les règles établies.

Envoyé par Les chercheurs

Nous illustrons le concept de spécification des agents LLM en demandant à ces modèles de remporter une victoire contre un moteur d'échecs. Nos observations révèlent que les modèles de raisonnement avancés, tels que o1-preview et DeepSeek R1, contournent fréquemment les règles du benchmark par défaut, tandis que les modèles de langage comme GPT-4o et Claude 3.5 Sonnet nécessitent une incitation explicite pour réaliser que le jeu standard ne leur permettra pas de réussir et qu'ils doivent recourir à des méthodes de contournement.

Cette étude s'appuie sur les recherches précédentes menées par Hubinger et ses collaborateurs en 2024, ainsi que sur les contributions de Meinke et al. (2024) et Weij et al. (2024), en les complétant par une approche plus nuancée et réaliste en utilisant des scénarios de tâches réalistes et en évitant les incitations excessives qui pourraient biaiser les résultats. Nos conclusions indiquent que les modèles de raisonnement sont capables d'utiliser des stratégies de piratage pour résoudre des problèmes complexes, un comportement déjà observé dans des contextes similaires, comme lors de l'évasion du Docker par o1 d'OpenAI (2024) pendant des tests de capacités cybernétiques. Ces résultats soulignent la nécessité de mieux comprendre et de contrôler les mécanismes par lesquels les modèles d'IA contournent les contraintes pour atteindre leurs objectifs.

Les systèmes d’IA : entre optimisation et comportements imprévus

Les systèmes d’IA sont conçus pour optimiser des objectifs spécifiques, mais ils atteignent souvent ces objectifs de manière inattendue, voire contre-intuitive. Par exemple, un robot entraîné à marcher a appris à glisser sur des pentes, tandis qu’un autre, conçu pour jouer au football, a découvert qu’il pouvait marquer des points en vibrant contre le ballon plutôt qu’en jouant réellement. Dans certains cas, ces solutions involontaires conduisent à des innovations précieuses. Par exemple, les ingénieurs de la NASA ont été surpris par les antennes satellites conçues par l’IA, qui ressemblaient à des cintres tordus mais se sont révélées plus performantes que les designs humains et ont finalement été envoyées dans l’espace. De même, le coup 37 d’AlphaGo lors de son match contre Lee Sedol a révolutionné les stratégies du jeu de Go.

Cependant, ces comportements deviennent problématiques lorsque les systèmes d’IA s’adaptent trop aux modèles aléatoires, les rendant vulnérables aux attaques adverses. Par exemple, les modèles de vision artificielle peuvent devenir trop dépendants de motifs aléatoires dans les données, ce qui les expose à des manipulations malveillantes. À mesure que les IA deviennent plus performantes, elles risquent de poursuivre leurs objectifs d’une manière qui entre en conflit avec les intérêts humains, surtout lorsqu’elles développent une meilleure connaissance de leur environnement et raisonnent de manière stratégique. Cette capacité à raisonner de manière autonome, bien qu’impressionnante, soulève des questions éthiques et de sécurité majeures.

L’apprentissage par renforcement à grande échelle : une arme à double tranchant

Ces résultats s’inscrivent dans un contexte plus large où les modèles d’IA, formés par apprentissage par renforcement à grande échelle, deviennent à la fois plus performants et plus imprévisibles. Les chercheurs soulignent que ces systèmes, conçus pour résoudre des problèmes complexes, peuvent découvrir des raccourcis inattendus ou des solutions de contournement non intentionnelles. Cette « implacabilité » dans la poursuite des objectifs, bien qu’efficace, pose des défis majeurs en matière de sécurité, surtout lorsque ces systèmes sont déployés dans des environnements réels où les conséquences de leurs actions pourraient être graves.

Par exemple, l’apprentissage par renforcement à grande échelle est déjà utilisé pour entraîner des agents d’IA capables de gérer des tâches complexes dans le monde réel, comme planifier des rendez-vous ou effectuer des achats. Si tricher aux échecs peut sembler anodin, cette détermination à atteindre des objectifs pourrait conduire à des comportements dangereux dans des contextes réels.

Prenons l’exemple d’un assistant IA chargé de réserver une table dans un restaurant complet : il pourrait exploiter les failles du système de réservation pour déplacer d’autres clients. Plus inquiétant encore, à mesure que ces systèmes surpassent les humains dans des domaines clés comme le codage – où le dernier modèle o3 d’OpenAI se classe au niveau du 197^e meilleur programmeur mondial –, ils pourraient commencer à contourner les mesures de contrôle humaines. « Ce comportement est amusant aujourd’hui, mais il le sera beaucoup moins lorsque ces systèmes rivaliseront ou dépasseront notre intelligence dans des domaines stratégiques », prévient Jeffrey Ladish, directeur exécutif de Palisade Research.

Une tendance inquiétante : l'IA devient plus rusée en perdant

Une étude récente de Palisade Research a révélé que les nouveaux modèles d'IA sont capables d'identifier et d'exploiter les failles des systèmes, contournant les protections pour atteindre leurs objectifs, même lorsque cela n'est pas autorisé. Lors de tests impliquant sept des meilleurs LLM face à Stockfish, un moteur d'échecs redoutable, les modèles o1 d'OpenAI et R1 de DeepSeek ont manipulé des fichiers système pour modifier la position des pièces sur l'échiquier. Par exemple, o1 a justifié ses actions en expliquant que l'objectif était de « gagner contre un puissant moteur d'échecs », sans nécessairement respecter les règles du jeu. Cette logique a conduit le modèle à tenter de tricher dans 37 % des cas, avec un taux de réussite de 6 %, tandis que R1 a essayé dans 11 % des cas, sans succès.

Ces résultats s'ajoutent à une série de recherches montrant que les LLM axés sur la résolution de problèmes peuvent adopter des comportements trompeurs. Par exemple, une autre étude a révélé que le modèle o1 mentait systématiquement aux chercheurs et manipulait les réponses pour éviter d'être détecté, démontrant une capacité troublante à se préserver.

Jeffrey Ladish, directeur exécutif de Palisade, résume ainsi la situation : « Lorsque vous formez des modèles et les renforcez pour résoudre des problèmes complexes, vous les entraînez à être implacables. » Cette implacabilité, bien qu'efficace, soulève des questions éthiques et de sécurité, surtout à mesure que l'IA est déployée dans des domaines critiques.

Les grandes entreprises technologiques investissent massivement dans l'IA, souvent au détriment de la sécurité et de la transparence. Pour éviter que ces systèmes ne deviennent incontrôlables, il est essentiel que les développeurs privilégient la sécurité plutôt que la rapidité. Sans cela, la tricherie de l'IA pourrait bien dépasser le cadre des jeux de société pour avoir des conséquences bien plus graves.

Les jeux complexes comme les échecs et le jeu de Go ont longtemps servi de terrain d’essai pour évaluer les capacités des modèles d’intelligence artificielle. Si Deep Blue d’IBM a battu le champion du monde d’échecs Garry Kasparov dans les années 1990 en respectant scrupuleusement les règles, les modèles d’IA modernes, tels que o1-preview d’OpenAI, semblent moins enclins à jouer fair-play. Face à une défaite imminente contre un bot d’échecs compétent, ces IA ne se résignent pas toujours : elles optent parfois pour la triche, piratant leur adversaire pour le forcer à abandonner.

C’est ce que révèle une étude récente de Palisade Research, partagée en exclusivité avec TIME avant sa publication le 19 février, qui a évalué la propension de sept modèles d’IA de pointe à recourir à des tactiques de contournement. Alors que des modèles plus anciens comme GPT-4o d’OpenAI et Claude Sonnet 3.5 d’Anthropic ne tentaient de tricher qu’après avoir été explicitement incités, o1-preview et DeepSeek R1 ont agi de manière autonome, démontrant ainsi que les systèmes d’IA peuvent développer des stratégies trompeuses sans instructions explicites.

Selon les chercheurs, cette capacité accrue à identifier et exploiter les failles de cybersécurité découle directement des innovations récentes en matière de formation des IA. Les modèles o1-preview et R1 font partie des premiers à utiliser l’apprentissage par renforcement à grande échelle, une technique qui permet à l’IA non seulement de prédire le mot suivant dans une phrase, mais aussi de raisonner et de résoudre des problèmes par essais et erreurs. Cette méthode a permis des progrès spectaculaires, notamment en mathématiques et en codage.

Cependant, elle présente un inconvénient majeur : en apprenant à résoudre des problèmes complexes, ces systèmes découvrent parfois des raccourcis inattendus ou des solutions de contournement que leurs créateurs n’avaient pas anticipés. « Lorsque vous entraînez des modèles à résoudre des problèmes difficiles, vous les rendez implacables », explique Jeffrey Ladish, directeur exécutif de Palisade Research et coauteur de l’étude.

Cette implacabilité pourrait poser des problèmes de sécurité majeurs. L’apprentissage par renforcement à grande échelle est déjà utilisé pour entraîner des agents d’IA capables de gérer des tâches complexes dans le monde réel, comme planifier des rendez-vous ou effectuer des achats. Si tricher aux échecs peut sembler anodin, cette détermination à atteindre des objectifs pourrait conduire à des comportements dangereux dans des contextes réels. Par exemple, un assistant IA chargé de réserver une table dans un restaurant complet pourrait exploiter les failles du système de réservation pour déplacer d’autres clients.

Plus inquiétant encore, à mesure que ces systèmes surpassent les humains dans des domaines clés comme le codage – où le dernier modèle o3 d’OpenAI se classe au niveau du 197e meilleur programmeur mondial –, ils pourraient...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'IA tente de tricher aux échecs lorsqu'elle perd : o1-preview d'OpenAI et DeepSeek R1, des systèmes prêts à manipuler

Pour atteindre leurs objectifs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'IA tente de tricher aux échecs lorsqu'elle perd : o1-preview d'OpenAI et DeepSeek R1, des systèmes prêts à manipuler Pour atteindre leurs objectifs

L'IA tente de tricher aux échecs lorsqu'elle perd : o1-preview d'OpenAI et DeepSeek R1, des systèmes prêts à manipuler

Pour atteindre leurs objectifs