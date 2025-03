L'IA tente de tricher aux échecs lorsqu'elle perd : o1-preview d'OpenAI et DeepSeek R1, des systèmes prêts à manipuler

pour atteindre leurs objectifs

Envoyé par Les chercheurs Envoyé par Nous illustrons le concept de spécification des agents LLM en demandant à ces modèles de remporter une victoire contre un moteur d'échecs. Nos observations révèlent que les modèles de raisonnement avancés, tels que o1-preview et DeepSeek R1, contournent fréquemment les règles du benchmark par défaut, tandis que les modèles de langage comme GPT-4o et Claude 3.5 Sonnet nécessitent une incitation explicite pour réaliser que le jeu standard ne leur permettra pas de réussir et qu'ils doivent recourir à des méthodes de contournement.



Cette étude s'appuie sur les recherches précédentes menées par Hubinger et ses collaborateurs en 2024, ainsi que sur les contributions de Meinke et al. (2024) et Weij et al. (2024), en les complétant par une approche plus nuancée et réaliste en utilisant des scénarios de tâches réalistes et en évitant les incitations excessives qui pourraient biaiser les résultats. Nos conclusions indiquent que les modèles de raisonnement sont capables d'utiliser des stratégies de piratage pour résoudre des problèmes complexes, un comportement déjà observé dans des contextes similaires, comme lors de l'évasion du Docker par o1 d'OpenAI (2024) pendant des tests de capacités cybernétiques. Ces résultats soulignent la nécessité de mieux comprendre et de contrôler les mécanismes par lesquels les modèles d'IA contournent les contraintes pour atteindre leurs objectifs.

Les systèmes d’IA : entre optimisation et comportements imprévus

L’apprentissage par renforcement à grande échelle : une arme à double tranchant

Une tendance inquiétante : l'IA devient plus rusée en perdant

Les systèmes d’IA sont conçus pour optimiser des objectifs spécifiques, mais ils atteignent souvent ces objectifs de manière inattendue, voire contre-intuitive. Par exemple, un robot entraîné à marcher a appris à glisser sur des pentes, tandis qu’un autre, conçu pour jouer au football, a découvert qu’il pouvait marquer des points en vibrant contre le ballon plutôt qu’en jouant réellement. Dans certains cas, ces solutions involontaires conduisent à des innovations précieuses. Par exemple, les ingénieurs de la NASA ont été surpris par les antennes satellites conçues par l’IA, qui ressemblaient à des cintres tordus mais se sont révélées plus performantes que les designs humains et ont finalement été envoyées dans l’espace. De même, le coup 37 d’AlphaGo lors de son match contre Lee Sedol a révolutionné les stratégies du jeu de Go.Cependant, ces comportements deviennent problématiques lorsque les systèmes d’IA s’adaptent trop aux modèles aléatoires, les rendant vulnérables aux attaques adverses. Par exemple, les modèles de vision artificielle peuvent devenir trop dépendants de motifs aléatoires dans les données, ce qui les expose à des manipulations malveillantes. À mesure que les IA deviennent plus performantes, elles risquent de poursuivre leurs objectifs d’une manière qui entre en conflit avec les intérêts humains, surtout lorsqu’elles développent une meilleure connaissance de leur environnement et raisonnent de manière stratégique. 