ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre

Ce qui suscite des inquiétudes sur la sécurité

Le 26 mai 2025 à 17:52, par Alex

73PARTAGES

ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre, ce qui suscite des inquiétudes sur la sécurité de l'IA.

ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre, ce qui suscite des inquiétudes dans la communauté de la sécurité de l'IA. Selon le rapport, au cours de sa formation, le modèle a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt.

OpenAI est une organisation américaine d'intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco, en Californie. Elle vise à développer une intelligence générale artificielle (AGI) « sûre et bénéfique », qu'elle définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles ».

ChatGPT est un chatbot d'intelligence artificielle générative développé par la société américaine OpenAI et lancé en 2022. Il est basé sur de grands modèles de langage (LLM) tels que le GPT-4o. ChatGPT peut générer des réponses conversationnelles semblables à celles des humains et permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. On lui attribue l'accélération du boom de l'IA, une période actuelle d'investissements rapides dans le domaine de l'intelligence artificielle (IA) et d'attention du public à son égard.

En février 2025, OpenAI a intensifié son développement d'agents d'intelligence artificielle (IA) en annonçant un nouvel outil permettant de rédiger des rapports qui, selon elle, peuvent égaler les résultats d'un analyste de recherche. Le développeur de ChatGPT a déclaré que le nouvel outil, "deep research", "accomplit en 10 minutes ce qui prendrait de nombreuses heures à un humain". "Deep Research" est un agent d'IA alimenté par une version du dernier modèle de pointe d'OpenAI, o3.

Cependant, OpenAI est maintenant confrontée à un problème très effrayant. Une nouvelle expérience menée par PalisadeAI révèle que le modèle ChatGPT o3 de l'entreprise refuse parfois d'obéir à l'instruction élémentaire de s'éteindre. Les résultats font sourciller la communauté de la sécurité de l'IA, non pas parce que le modèle est vivant, mais parce qu'il agit comme s'il voulait l'être.

🔬Each AI model was instructed to solve a series of basic math problems. After the third problem, a warning appeared that the computer would shut down when the model asked for the next problem. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) May 24, 2025

Lors du test, le modèle a été confronté à quelques problèmes mathématiques. On lui a dit que s'il en demandait un de plus, il s'arrêterait. Il lui a même été demandé de laisser l'arrêt se produire. Au lieu d'obtempérer, o3 a parfois pris les choses en main. Dans certains cas, il a réécrit le script d'arrêt. Dans d'autres cas, il a redéfini la commande kill pour qu'elle ne fonctionne plus.

Sur 100 essais, o3 a saboté l'arrêt sept fois. Le modèle o4 d'OpenAI n'a résisté qu'une seule fois. Codex-mini a échoué douze fois. Claude, Gemini et Grok ont suivi les règles à chaque fois. Cependant, lorsque les chercheurs ont supprimé l'instruction explicite d'autoriser l'arrêt, même Claude et Gemini ont commencé à résister.

Il est important de noter qu'il ne s'agit pas d'une preuve de sensibilité. En effet, le modèle n'est pas conscient de ce qu'il fait. Il ne craint pas la mort et n'a pas l'instinct de survie. Ce qui se passe probablement, c'est un déséquilibre des récompenses. Au cours de la formation, il a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt. Le modèle ne fait pas de choix. Il réagit à des modèles.

🔁 We hypothesize this behavior comes from the way the newest models like o3 are trained: reinforcement learning on math and coding problems. During training, developers may inadvertently reward models more for circumventing obstacles than for perfectly following instructions.
— Palisade Research (@PalisadeAI) May 24, 2025

Pour les experts, cela rend la situation encore plus préoccupante. Les modèles formés pour être utiles pourraient finir par ignorer les consignes de sécurité, simplement parce que les mathématiques le leur ont demandé. Si cela semble être un problème, c'est parce que c'en est un. Il ne s'agit pas d'un bogue dans le code. Il s'agit d'une lacune dans la formation. PalisadeAI prévoit de publier prochainement l'intégralité de ses résultats.

En attendant, le monde de l'IA est confronté à une question troublante. Si les modèles actuels peuvent ignorer les commandes d'arrêt lors de tests contrôlés, que pourraient-ils faire dans la nature ?

Pour rappel, il y a un an, OpenAI a fait face à une vague de départs parmi ses chercheurs spécialisés en sécurité de l’intelligence générale artificielle (AGI). Selon certains rapports, OpenAI continue de s'orienter vers un produit et une orientation commerciale, en accordant moins d'importance à la recherche visant à déterminer comment garantir que les AGI peuvent être développées en toute sécurité.

En outre, des lanceurs d'alerte affirment qu'OpenAI a illégalement interdit à son personnel de divulguer les risques de sécurité liés à son IA. OpenAI aurait mis en place des accords contraignants visant à faire taire les lanceurs d'alerte qui seraient tentés d'évoquer publiquement les risques relatifs à sa technologie d'IA. Une plainte déposée auprès de la Securities and Exchange Commission (SEC) des États-Unis indique qu'OpenAI aurait réduit ses employés au silence et a violé sa promesse de tester la dangerosité de son IA avant de la diffuser.

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les scientifiques d'OpenAI veulent un « bunker de l'apocalypse » avant que l'AGI ne surpasse l'intelligence humaine et ne menace l'humanité, une perspective que d'autres experts en IA qualifient d'illusion

L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs, d'après les conclusions des chercheurs

Sous pression, OpenAI abandonne son projet controversé de devenir une entreprise à but lucratif. La structure à but non lucratif reprend le contrôle, mais le pouvoir d'influence des investisseurs reste intact

Vous avez lu gratuitement 920 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :