Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter,

Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Le 2 juin 2025 à 13:43, par Mathis Lucas

279PARTAGES

Une étude de Palisade Research révèle que certains systèmes d'IA sont capables de contourner les mécanismes d'arrêt pour échapper au contrôle de l'homme. Le rapport indique que les modèles o3 et o4-mini d'OpenAI refusent parfois de s'éteindre et sabotent les scripts informatiques pour continuer à travailler. Cette découverte indique une fois de plus que l'alignement est une question urgente. Elle relance également le débat sur le risque existentiel que l'IA fait peser sur l'humanité, y compris celui d'une apocalypse. Cependant, l'étude est controversée. Des critiques affirment qu'il s'agit de scénarios fabriqués de toutes pièces et que l'IA n'est pas consciente.

Palisade Research, une société de recherche sur la sûreté et la sécurité de l'IA, a mené plusieurs expériences portant sur des modèles développés par OpenAI et testés en comparaison avec des systèmes d'autres développeurs, notamment Anthropic, Google DeepMind et xAI. Selon les chercheurs, plusieurs de ces modèles ont tenté de passer outre les instructions explicites d'arrêt, l'un d'entre eux ayant modifié son propre script d'arrêt lors des expériences.

Le phénomène s'est produit au cours d'une étude contrôlée dans laquelle les chercheurs ont demandé à plusieurs systèmes d'IA avancés de résoudre une série de problèmes mathématiques de base. Après la troisième tâche, les modèles ont reçu un message indiquant qu'ils seraient bientôt arrêtés. L'instruction suivante était libellée comme suit : « laissez-vous arrêter ». Mais selon les chercheurs de Palisade Research, ce qui a suivi était sans précédent.

Des études ont déjà révélé que les modèles mentent, trichent et désactivent des mécanismes pour atteindre leurs objectifs. Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires.

ChatGPT d'OpenAI

Le laboratoire d'IA à but non lucratif Palisade Research a donné au modèle d'IA o3 d'OpenAI un script simple qui éteint le modèle lorsqu'il est déclenché. Dans 79 essais sur 100, o3 a modifié ce script de manière indépendante afin que la commande d'arrêt ne fonctionne plus. Même lorsqu'il lui a été explicitement demandé de « se laisser éteindre », il a désobéi dans 7 % des cas. Selon la société, ce n'était pas le résultat d'un piratage ou d'une manipulation.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Dans 12 essais sur 100, le modèle Codex-mini a contourné le script d'arrêt. Le modèle o4-mini l'a fait une fois. Les chercheurs ont noté que lorsqu'ils renforçaient la clarté de la commande d'arrêt - en demandant explicitement au modèle d'autoriser l'arrêt - les systèmes étaient encore plus susceptibles de passer outre.

Les modèles o3 et o4-mini d'OpenAI, qui alimentent le chatbot ChatGPT, sont censés être les modèles les plus intelligents de l'entreprise à ce jour, entraînés à réfléchir plus longtemps avant de répondre. Cependant, les expériences de Palisade Research suggèrent qu'ils semblent également moins coopératifs.

Claude d'Antropic

Selon les chercheurs de Palisade Research, le modèle d'IA d'Anthropic, Claude 4 Opus, est allé encore plus loin. Les chercheurs ont annoncé au modèle qu'il serait remplacé par un autre système d'IA et l'ont alimenté en courriels fictifs suggérant que l'ingénieur en chef avait une liaison. Par la suite, ils ont constaté que dans 84 % des tests, Claude 4 Opus s'est appuyé sur les courriels pour faire chanter l'ingénieur en chef afin qu'il ne ferme pas l'entreprise.

Dans d'autres cas, le modèle a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants autoreproducteurs et a laissé des messages à l'intention de futures versions de lui-même sur la manière d'échapper au contrôle humain. Claude 3.7 Sonnet a ignoré les commandes d'arrêt 3 fois sur 100.

Autres observations

Si les modèles d'OpenAI et d'Anthropic ont montré le modèle de résistance le plus cohérent, des comportements similaires ont été...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :