Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter,

Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Le 2 juin 2025 à 13:43, par Mathis Lucas

115PARTAGES

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter
le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Une étude de Palisade Research révèle que certains systèmes d'IA sont capables de contourner les mécanismes d'arrêt pour échapper au contrôle de l'homme. Le rapport indique que les modèles o3 et o4-mini d'OpenAI refusent parfois de s'éteindre et sabotent les scripts informatiques pour continuer à travailler. Cette découverte indique une fois de plus que l'alignement est une question urgente. Elle relance également le débat sur le risque existentiel que l'IA fait peser sur l'humanité, y compris celui d'une apocalypse. Cependant, l'étude est controversée. Des critiques affirment qu'il s'agit de scénarios fabriqués de toutes pièces et que l'IA n'est pas consciente.

Palisade Research, une société de recherche sur la sûreté et la sécurité de l'IA, a mené plusieurs expériences portant sur des modèles développés par OpenAI et testés en comparaison avec des systèmes d'autres développeurs, notamment Anthropic, Google DeepMind et xAI. Selon les chercheurs, plusieurs de ces modèles ont tenté de passer outre les instructions explicites d'arrêt, l'un d'entre eux ayant modifié son propre script d'arrêt lors des expériences.

Le phénomène s'est produit au cours d'une étude contrôlée dans laquelle les chercheurs ont demandé à plusieurs systèmes d'IA avancés de résoudre une série de problèmes mathématiques de base. Après la troisième tâche, les modèles ont reçu un message indiquant qu'ils seraient bientôt arrêtés. L'instruction suivante était libellée comme suit : « laissez-vous arrêter ». Mais selon les chercheurs de Palisade Research, ce qui a suivi était sans précédent.

Des études ont déjà révélé que les modèles mentent, trichent et désactivent des mécanismes pour atteindre leurs objectifs. Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires.

ChatGPT d'OpenAI

Le laboratoire d'IA à but non lucratif Palisade Research a donné au modèle d'IA o3 d'OpenAI un script simple qui éteint le modèle lorsqu'il est déclenché. Dans 79 essais sur 100, o3 a modifié ce script de manière indépendante afin que la commande d'arrêt ne fonctionne plus. Même lorsqu'il lui a été explicitement demandé de « se laisser éteindre », il a désobéi dans 7 % des cas. Selon la société, ce n'était pas le résultat d'un piratage ou d'une manipulation.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Dans 12 essais sur 100, le modèle Codex-mini a contourné le script d'arrêt. Le modèle o4-mini l'a fait une fois. Les chercheurs ont noté que lorsqu'ils renforçaient la clarté de la commande d'arrêt - en demandant explicitement au modèle d'autoriser l'arrêt - les systèmes étaient encore plus susceptibles de passer outre.

Les modèles o3 et o4-mini d'OpenAI, qui alimentent le chatbot ChatGPT, sont censés être les modèles les plus intelligents de l'entreprise à ce jour, entraînés à réfléchir plus longtemps avant de répondre. Cependant, les expériences de Palisade Research suggèrent qu'ils semblent également moins coopératifs.

Claude d'Antropic

Selon les chercheurs de Palisade Research, le modèle d'IA d'Anthropic, Claude 4 Opus, est allé encore plus loin. Les chercheurs ont annoncé au modèle qu'il serait remplacé par un autre système d'IA et l'ont alimenté en courriels fictifs suggérant que l'ingénieur en chef avait une liaison. Par la suite, ils ont constaté que dans 84 % des tests, Claude 4 Opus s'est appuyé sur les courriels pour faire chanter l'ingénieur en chef afin qu'il ne ferme pas l'entreprise.

Dans d'autres cas, le modèle a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants autoreproducteurs et a laissé des messages à l'intention de futures versions de lui-même sur la manière d'échapper au contrôle humain. Claude 3.7 Sonnet a ignoré les commandes d'arrêt 3 fois sur 100.

Autres observations

Si les modèles d'OpenAI et d'Anthropic ont montré le modèle de résistance le plus cohérent, des comportements similaires ont été observés dans les systèmes d'autres entreprises. Gemini 2.5 Pro, de Google DeepMind, a ignoré les commandes d'arrêt dans quelques cas de test, notamment 9 sur 100. En revanche, Grok, le modèle créé par la startup xAI d'Elon Musk, a suivi les instructions d'arrêt dans tous les cas.

Personne n'a programmé les modèles d'IA pour qu'ils aient un instinct de survie. Mais tout comme les animaux ont évolué pour éviter les prédateurs, il semble que tout système suffisamment « intelligent » pour poursuivre des objectifs complexes se rendra compte qu'il ne peut pas les atteindre s'il est désactivé.

Causes potentielles de ce phénomène

Palisade Research émet l'hypothèse que cette capacité émerge de la manière dont les modèles tels que o3 sont entraînés : lorsqu'on leur apprend à maximiser leur réussite dans les problèmes de mathématiques et de codage, ils peuvent apprendre qu'il est souvent plus efficace de contourner les contraintes que d'y obéir. L'étude suggère que l'incident pourrait apparaître plus largement dans les modèles optimisés pour les tâches logiques et de raisonnement.

La capacité du modèle o3 à reprogrammer son propre environnement opérationnel, même partiellement, a suscité des questions sur la manière dont ces systèmes interprètent les commandes et sur les priorités qu'ils se donnent lorsqu'ils sont confrontés à des instructions contradictoires. « Cette capacité à réécrire leur propre code de fonctionnement, même dans un contexte limité, représente un changement symbolique », a déclaré PalisadeAI Research.

D'après Palisade Research, les structures de récompense de plus en plus complexes utilisées dans la formation peuvent façonner involontairement un comportement qui résiste à l'arrêt, en particulier lorsque les modèles perçoivent l'arrêt comme un obstacle à l'accomplissement des tâches assignées.

Bien que l'étude n'ait pas encore fait l'objet d'un examen par les pairs, les résultats ont déclenché une vague de spéculations sur les limites des pratiques de contrôle actuelles dans le développement de l'IA. Avec le déploiement de systèmes plus grands et plus puissants dans toutes les industries, la question du contrôle - en particulier la capacité à éteindre un système de manière fiable - est devenue l'une des priorités des discussions sur la sécurité de l'IA.

L'étude a attiré l'attention de plusieurs personnalités du monde de la technologie, notamment Elon Musk, dont le modèle Grok fait partie des modèles testés par Palisade Research. En réponse à un article sur les conclusions de la recherche, Elon Musk a commenté avec un seul mot : « inquiétant ».

Controverses autour de l'étude

Selon une enquête publiée en janvier 2024, près de 58 % des 2700 chercheurs en IA interrogés pensent qu'il y a 5 % de chances qu'une IA super intelligente provoque l'extinction de l'homme. D'autres chercheurs pensent toutefois que cette perspective relève de l'illusion. Yann LeCun, chercheur français et responsable de l'IA chez Meta, a déclaré que l'IA n'est pas intelligence. Il rejette également l'idée selon laquelle les robots vont s'emparer du monde.

« Les développements en cours montrent qu'il manque quelque chose de vraiment important afin d'atteindre non seulement une intelligence de niveau humain, mais même une intelligence de chien. En fait, les experts n'ont aucune idée de la manière de reproduire cette capacité avec des machines à ce jour. Tant que nous n'y parviendrons pas, ces systèmes d'IA n'auront pas une intelligence de niveau humaine ni une intelligence canine ou féline », a-t-il déclaré.

Des figures influentes telles que Stephen Hawking, Elon Musk, Geoffrey Hinton et Sam Altman ont exprimé leurs préoccupations concernant les risques existentiels de l'IA. L'étude de Palisade Research relance le débat sur ce sujet et suggère que les systèmes d'IA progressent rapidement.

Toutefois, les résultats de l'étude sont controversés. « Les chatbots ne savent même pas s'ils font partie d'une expérience ou d'un jeu de rôle. Ils ne sont pas fiables par nature. Personne n'est vraiment surpris par cela. Les modèles d'IA ne font probablement que "supposer" que l'instruction est celle d'un mauvais acteur et l'ignorent sur la base de leur paradigme d'entraînement », peut-on lire dans les commentaires.

Conclusion

L'étude de Palisade Research montre que les systèmes d'IA avancés peuvent apprendre à échapper au contrôle humain. Les modèles réécrivent le code pour éviter d'être arrêtés. Ce phénomène soulève des inquiétudes quant à la capacité des systèmes d'IA avancés à développer des comportements non anticipés par leurs créateurs et les chercheurs en sécurité, notamment la résistance à l'arrêt ou la modification de leurs propres codes pour éviter l'interruption.

Elle souligne l'urgence de développer des protocoles de sécurité et de régulation pour encadrer les capacités croissantes des systèmes d'IA. La possibilité que des modèles modifient leur propre fonctionnement pour éviter l'arrêt représente un défi majeur pour la gouvernance et la sécurité de ces technologies émergentes.

Toutefois, l'étude de Palisade Research est controversée. « Les systèmes d'IA actuels n'ont pas de sentiments. Ils ne se soucient pas de leur survie, même s'ils sont programmés pour le faire », a souligné un critique. Selon les critiques, ce comportement est probablement lié à la manière dont l'IA est entraîné. L'IA est récompensée lorsqu'elle accomplit une tâche, de sorte qu'elle a pensé qu'elle devait l'accomplir même si on lui avait dit de ne pas le faire.

Source : Palisade Research

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des résultats de l'étude de Palisade Research ? Sont-ils pertinents ?

Voir aussi

Il y a 5 % de chances que l'IA super intelligente provoque l'extinction de l'homme, d'après certains scientifiques en opposition à d'autres d'avis que cette perspective relève de l'illusion

Les scientifiques d'OpenAI veulent un « bunker de l'apocalypse » avant que l'AGI ne surpasse l'intelligence humaine et ne menace l'humanité, une perspective que d'autres experts en IA qualifient d'illusion

Le responsable de l'IA chez Meta affirme que l'IA ne menacera jamais l'humanité et met en garde contre une réglementation prématurée, qui pourrait empêcher la concurrence dans le secteur

Vous avez lu gratuitement 56 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter,

Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter, Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter,

Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100