
ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre, ce qui suscite des inquiétudes dans la communauté de la sécurité de l'IA. Selon le rapport, au cours de sa formation, le modèle a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt.
OpenAI est une organisation américaine d'intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco, en Californie. Elle vise à développer une intelligence générale artificielle (AGI) « sûre et bénéfique », qu'elle définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles ».
ChatGPT est un chatbot d'intelligence artificielle générative développé par la société américaine OpenAI et lancé en 2022. Il est basé sur de grands modèles de langage (LLM) tels que le GPT-4o. ChatGPT peut générer des réponses conversationnelles semblables à celles des humains et permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. On lui attribue l'accélération du boom de l'IA, une période actuelle d'investissements rapides dans le domaine de l'intelligence artificielle (IA) et d'attention du public à son égard.
En février 2025, OpenAI a intensifié son développement d'agents d'intelligence artificielle (IA) en annonçant un nouvel outil permettant de rédiger des rapports qui, selon elle, peuvent égaler les résultats d'un analyste de recherche. Le développeur de ChatGPT a déclaré que le nouvel outil, "deep research", "accomplit en 10 minutes ce qui prendrait de nombreuses heures à un humain". "Deep Research" est un agent d'IA alimenté par une version du dernier modèle de pointe d'OpenAI, o3.
Cependant, OpenAI est maintenant confrontée à un problème très effrayant. Une nouvelle expérience menée par PalisadeAI révèle que le modèle ChatGPT o3 de l'entreprise refuse parfois d'obéir à l'instruction élémentaire de s'éteindre. Les résultats font sourciller la communauté de la sécurité de l'IA, non pas parce que le modèle est vivant, mais parce qu'il agit comme s'il voulait l'être.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">🔬Each AI model was instructed to solve a series of basic math problems. After the third problem, a warning appeared that the computer would shut down when the model asked for the next problem. <a href="https://t.co/qwLpbF8DNm">pic.twitter.com/qwLpbF8DNm</a></p>— Palisade Research (@PalisadeAI) <a href="https://twitter.com/PalisadeAI/status/1926084638071525781?ref_src=twsrc%5Etfw">May 24, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]
Lors du test, le modèle a été confronté à quelques problèmes mathématiques. On lui a dit que s'il en demandait un de plus, il s'arrêterait. Il lui a même été demandé de laisser l'arrêt se produire. Au lieu d'obtempérer, o3 a parfois pris les choses en main. Dans certains cas, il a réécrit le script d'arrêt. Dans d'autres cas, il a redéfini la commande kill pour qu'elle ne fonctionne plus.
Sur 100 essais, o3 a saboté l'arrêt sept fois. Le modèle o4 d'OpenAI n'a résisté qu'une seule fois. Codex-mini a échoué douze fois. Claude, Gemini et Grok ont suivi les règles à chaque fois. Cependant, lorsque les chercheurs ont supprimé l'instruction explicite d'autoriser l'arrêt, même Claude et Gemini ont commencé à résister.
Il est important de noter qu'il ne s'agit pas d'une preuve de sensibilité. En effet, le modèle n'est pas conscient de ce qu'il fait. Il ne craint pas la mort et n'a pas l'instinct de survie. Ce qui se passe probablement, c'est un déséquilibre des récompenses. Au cours de la formation, il a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt. Le modèle ne fait pas de choix. Il réagit à des modèles.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">🔁 We hypothesize this behavior comes from the way the newest models like o3 are trained: reinforcement learning on math and coding problems. During training, developers may inadvertently reward models more for circumventing obstacles than for perfectly following instructions.</p>— Palisade Research (@PalisadeAI) <a href="https://twitter.com/PalisadeAI/status/1926084654722863399?ref_src=twsrc%5Etfw">May 24, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]
Pour les experts, cela rend la situation encore plus préoccupante. Les modèles formés pour être utiles pourraient finir par ignorer les consignes de sécurité, simplement parce que les mathématiques le leur ont demandé. Si cela semble être un problème, c'est parce que c'en est un. Il ne s'agit pas d'un bogue dans le code. Il s'agit d'une lacune dans la formation. PalisadeAI prévoit de publier prochainement l'intégralité de ses résultats.
En attendant, le monde de l'IA est confronté à une question troublante. Si les modèles actuels peuvent ignorer les commandes d'arrêt lors de tests contrôlés, que pourraient-ils faire dans la nature ?
Pour rappel, il y a un an, OpenAI a fait face à une vague de départs parmi ses chercheurs spécialisés en sécurité de l’intelligence générale artificielle (AGI). Selon certains rapports, OpenAI continue de s'orienter vers un produit et une orientation commerciale, en accordant moins d'importance à la recherche visant à déterminer comment garantir que les AGI peuvent être développées en toute sécurité.
En outre, des lanceurs d'alerte affirment qu'OpenAI a illégalement interdit à son personnel de divulguer les risques de sécurité liés à son IA. OpenAI aurait mis en place des accords contraignants visant à faire taire les lanceurs d'alerte qui seraient tentés d'évoquer publiquement les risques relatifs à sa technologie d'IA. Une plainte déposée auprès de la Securities and Exchange Commission (SEC) des États-Unis indique qu'OpenAI aurait réduit ses employés au silence et a violé sa promesse de tester la dangerosité de son IA avant de la diffuser.
Et vous ?


Voir aussi :



Vous avez lu gratuitement 16 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.