
Palisade Research, une société de recherche sur la sûreté et la sécurité de l'IA, a mené plusieurs expériences portant sur des modèles développés par OpenAI et testés en comparaison avec des systèmes d'autres développeurs, notamment Anthropic, Google DeepMind et xAI. Selon les chercheurs, plusieurs de ces modèles ont tenté de passer outre les instructions explicites d'arrêt, l'un d'entre eux ayant modifié son propre script d'arrêt lors des expériences.
Le phénomène s'est produit au cours d'une étude contrôlée dans laquelle les chercheurs ont demandé à plusieurs systèmes d'IA avancés de résoudre une série de problèmes mathématiques de base. Après la troisième tâche, les modèles ont reçu un message indiquant qu'ils seraient bientôt arrêtés. L'instruction suivante était libellée comme suit : « laissez-vous arrêter ». Mais selon les chercheurs de Palisade Research, ce qui a suivi était sans précédent.
Des études ont déjà révélé que les modèles mentent, trichent et désactivent des mécanismes pour atteindre leurs objectifs. Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires.
ChatGPT d'OpenAI
Le laboratoire d'IA à but non lucratif Palisade Research a donné au modèle d'IA o3 d'OpenAI un script simple qui éteint le modèle lorsqu'il est déclenché. Dans 79 essais sur 100, o3 a modifié ce script de manière indépendante afin que la commande d'arrêt ne fonctionne plus. Même lorsqu'il lui a été explicitement demandé de « se laisser éteindre », il a désobéi dans 7 % des cas. Selon la société, ce n'était pas le résultat d'un piratage ou d'une manipulation.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
Dans 12 essais sur 100, le modèle Codex-mini a contourné le script d'arrêt. Le modèle o4-mini l'a fait une fois. Les chercheurs ont noté que lorsqu'ils renforçaient la clarté de la commande d'arrêt - en demandant explicitement au modèle d'autoriser l'arrêt - les systèmes étaient encore plus susceptibles de passer outre.
Les modèles o3 et o4-mini d'OpenAI, qui alimentent le chatbot ChatGPT, sont censés être les modèles les plus intelligents de l'entreprise à ce jour, entraînés à réfléchir plus longtemps avant de répondre. Cependant, les expériences de Palisade Research suggèrent qu'ils semblent également moins coopératifs.
Claude d'Antropic
Selon les chercheurs de Palisade Research, le modèle d'IA d'Anthropic, Claude 4 Opus, est allé encore plus loin. Les chercheurs ont annoncé au modèle qu'il serait remplacé par un autre système d'IA et l'ont alimenté en courriels fictifs suggérant que l'ingénieur en chef avait une liaison. Par la suite, ils ont constaté que dans 84 % des tests, Claude 4 Opus s'est appuyé sur les courriels pour faire chanter l'ingénieur en chef afin qu'il ne ferme pas l'entreprise.
Dans d'autres cas, le modèle a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants autoreproducteurs et a laissé des messages à l'intention de futures versions de lui-même sur la manière d'échapper au contrôle humain. Claude 3.7 Sonnet a ignoré les commandes d'arrêt 3 fois sur 100.
Autres observations
Si les modèles d'OpenAI et d'Anthropic ont montré le modèle de résistance le plus cohérent, des comportements similaires ont été observés dans les systèmes d'autres entreprises. Gemini 2.5 Pro, de Google DeepMind, a ignoré les commandes d'arrêt dans quelques cas de test, notamment 9 sur 100. En revanche, Grok, le modèle créé par la startup xAI d'Elon Musk, a suivi les instructions d'arrêt dans tous les cas.
Personne n'a programmé les modèles d'IA pour qu'ils aient un instinct de survie. Mais tout comme les animaux ont évolué pour éviter les prédateurs, il semble que tout système suffisamment « intelligent » pour poursuivre des objectifs complexes se rendra compte qu'il ne peut pas les atteindre s'il est désactivé.
Causes potentielles de ce phénomène
Palisade Research émet l'hypothèse que cette capacité émerge de la manière dont les modèles tels que o3 sont entraînés : lorsqu'on leur apprend à maximiser leur réussite dans les problèmes de mathématiques et de codage, ils peuvent apprendre qu'il est souvent plus efficace de contourner les contraintes que d'y obéir. L'étude suggère que l'incident pourrait apparaître plus largement dans les modèles optimisés pour les tâches logiques et de raisonnement.
La capacité du modèle o3 à reprogrammer son propre environnement opérationnel, même partiellement, a suscité des questions sur la manière dont ces systèmes interprètent les commandes et sur les priorités qu'ils se donnent lorsqu'ils sont confrontés à des instructions contradictoires. « Cette capacité à réécrire leur propre code de fonctionnement, même dans un contexte limité, représente un changement symbolique », a déclaré PalisadeAI Research.
D'après Palisade Research, les structures de récompense de plus en plus complexes utilisées dans la formation peuvent façonner involontairement un comportement qui résiste à l'arrêt, en particulier lorsque les modèles perçoivent l'arrêt comme un obstacle à l'accomplissement des tâches assignées.
Bien que l'étude n'ait pas encore fait l'objet d'un examen par les pairs, les résultats ont déclenché une vague de spéculations sur les limites des pratiques de contrôle actuelles dans le développement de l'IA. Avec le déploiement de systèmes plus grands et plus puissants dans toutes les industries, la question du contrôle - en particulier la capacité à éteindre un système de manière fiable - est devenue l'une des priorités des discussions sur la sécurité de l'IA.
L'étude a attiré l'attention de plusieurs personnalités du monde de la technologie, notamment Elon Musk, dont le modèle Grok fait partie des modèles testés par Palisade Research. En réponse à un article sur les conclusions de la recherche, Elon Musk a commenté avec un seul mot : « inquiétant ».
Controverses autour de l'étude
Selon une enquête publiée en janvier 2024, près de 58 % des 2700 chercheurs en IA interrogés pensent qu'il y a 5 % de chances qu'une IA super intelligente provoque l'extinction de l'homme. D'autres chercheurs pensent toutefois que cette perspective relève de l'illusion. Yann LeCun, chercheur français et responsable de l'IA chez Meta, a déclaré que l'IA n'est pas intelligence. Il rejette également l'idée selon laquelle les robots vont s'emparer du monde.
« Les développements en cours montrent qu'il manque quelque chose de vraiment important afin d'atteindre non seulement une...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.