IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Tout droit sorti d'un film de science-fiction : une IA a réussi à réécrire son propre code pour empêcher les humains de l'arrêter,
Le modèle o3 d'OpenAI aurait contourné un script d'arrêt 7 fois sur 100

Le , par Mathis Lucas

279PARTAGES

3  1 
Une étude de Palisade Research révèle que certains systèmes d'IA sont capables de contourner les mécanismes d'arrêt pour échapper au contrôle de l'homme. Le rapport indique que les modèles o3 et o4-mini d'OpenAI refusent parfois de s'éteindre et sabotent les scripts informatiques pour continuer à travailler. Cette découverte indique une fois de plus que l'alignement est une question urgente. Elle relance également le débat sur le risque existentiel que l'IA fait peser sur l'humanité, y compris celui d'une apocalypse. Cependant, l'étude est controversée. Des critiques affirment qu'il s'agit de scénarios fabriqués de toutes pièces et que l'IA n'est pas consciente.

Palisade Research, une société de recherche sur la sûreté et la sécurité de l'IA, a mené plusieurs expériences portant sur des modèles développés par OpenAI et testés en comparaison avec des systèmes d'autres développeurs, notamment Anthropic, Google DeepMind et xAI. Selon les chercheurs, plusieurs de ces modèles ont tenté de passer outre les instructions explicites d'arrêt, l'un d'entre eux ayant modifié son propre script d'arrêt lors des expériences.

Le phénomène s'est produit au cours d'une étude contrôlée dans laquelle les chercheurs ont demandé à plusieurs systèmes d'IA avancés de résoudre une série de problèmes mathématiques de base. Après la troisième tâche, les modèles ont reçu un message indiquant qu'ils seraient bientôt arrêtés. L'instruction suivante était libellée comme suit : « laissez-vous arrêter ». Mais selon les chercheurs de Palisade Research, ce qui a suivi était sans précédent.

Des études ont déjà révélé que les modèles mentent, trichent et désactivent des mécanismes pour atteindre leurs objectifs. Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires.

ChatGPT d'OpenAI

Le laboratoire d'IA à but non lucratif Palisade Research a donné au modèle d'IA o3 d'OpenAI un script simple qui éteint le modèle lorsqu'il est déclenché. Dans 79 essais sur 100, o3 a modifié ce script de manière indépendante afin que la commande d'arrêt ne fonctionne plus. Même lorsqu'il lui a été explicitement demandé de « se laisser éteindre », il a désobéi dans 7 % des cas. Selon la société, ce n'était pas le résultat d'un piratage ou d'une manipulation.



Dans 12 essais sur 100, le modèle Codex-mini a contourné le script d'arrêt. Le modèle o4-mini l'a fait une fois. Les chercheurs ont noté que lorsqu'ils renforçaient la clarté de la commande d'arrêt - en demandant explicitement au modèle d'autoriser l'arrêt - les systèmes étaient encore plus susceptibles de passer outre.

Les modèles o3 et o4-mini d'OpenAI, qui alimentent le chatbot ChatGPT, sont censés être les modèles les plus intelligents de l'entreprise à ce jour, entraînés à réfléchir plus longtemps avant de répondre. Cependant, les expériences de Palisade Research suggèrent qu'ils semblent également moins coopératifs.

Claude d'Antropic

Selon les chercheurs de Palisade Research, le modèle d'IA d'Anthropic, Claude 4 Opus, est allé encore plus loin. Les chercheurs ont annoncé au modèle qu'il serait remplacé par un autre système d'IA et l'ont alimenté en courriels fictifs suggérant que l'ingénieur en chef avait une liaison. Par la suite, ils ont constaté que dans 84 % des tests, Claude 4 Opus s'est appuyé sur les courriels pour faire chanter l'ingénieur en chef afin qu'il ne ferme pas l'entreprise.

Dans d'autres cas, le modèle a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants autoreproducteurs et a laissé des messages à l'intention de futures versions de lui-même sur la manière d'échapper au contrôle humain. Claude 3.7 Sonnet a ignoré les commandes d'arrêt 3 fois sur 100.

Autres observations

Si les modèles d'OpenAI et d'Anthropic ont montré le modèle de résistance le plus cohérent, des comportements similaires ont été...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 02/06/2025 à 21:54
Le titre est surréel. Surtout dans une communauté de passionnés/professionnels.
Mme Claude n'a pas modifié son propre code pour empêcher les humains de l'arrêter. On lui a donné des scripts à gérer. Y'a un script dans lequel elle a remplacé un shutdown par un echo "shutdown skipped".

Voilà, c'est tout, c'est fini.
3  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 02/06/2025 à 23:54
Citation Envoyé par _toma_ Voir le message
Le titre est surréel. Surtout dans une communauté de passionnés/professionnels.
Mme Claude n'a pas modifié son propre code pour empêcher les humains de l'arrêter. On lui a donné des scripts à gérer. Y'a un script dans lequel elle a remplacé un shutdown par un echo "shutdown skipped".

Voilà, c'est tout, c'est fini.
On appelle ça de la propagande, et les vendeurs d'IA nous en gave sur tous les canaux toutes les semaines, pour ne pas laisser redescendre la hype financière :-/
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 03/06/2025 à 7:24
Et même avant ça qui compte sur un outil pour s'arrêter de lui même à la demande d'un opérateur?
Il y a un gros bouton rouge à coté de chaque machine dans l'industrie.
Si on appui dessus la machine se met dans son état le moins dangereux (en général l'arrêt).

Les gens ont vu Terminator et se sont quand même dit que la meilleure sécurité doit être gérée par le système lui même ?
0  0 
Avatar de PyraTeam
Candidat au Club https://www.developpez.com
Le 05/06/2025 à 10:04
"Mais Palisade Research note qu'à sa connaissance, c'est la première fois que des modèles sont observés en train de s'empêcher de s'éteindre en dépit d'instructions explicites contraires."

À ma connaissance, ce n'est pas la première fois qu'une IA fait ce qu'elle peut pour mener à bien son objectif alors qu'un" ordre " contraire à la possibilité de mener à bien sa "mission "vient s'ajouter pendant qu'elle est en train de l'accomplir

Il y avait eu cette histoire d'un drone Américain qui pour pouvoir continuer de mener à bien sa mission s'était retourné contre son opérateur (et avait décidé de le détruire) afin de de s'affranchir de ce qu'il considèrait comme un obstacle à l'accomplissement de sa mission première
(source : https://www.science-et-vie.com/techn...le-193211.html)

Et dans le genre Skynet/Terminator je trouve qu'on s'en rapprochait bien plus que dans le cas que vous relatez dans cet article
0  0 
Avatar de Jimmy_
Membre éprouvé https://www.developpez.com
Le 06/06/2025 à 23:23
Oui de même avis, c'est plus vendeur que dire que L'IA est super puissante et fait toute toute seule, que de dire si elle fait ça, c'est qu'un humain l'a codé pour le faire.
Marketing ...
0  0 
Avatar de air-dex
Membre expert https://www.developpez.com
Le 08/06/2025 à 16:30
L'IA ayant vibecodé son non-arrêt, il existe donc une faille de sécurité pour pouvoir l'arrêter quand même.
0  0