IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre
Ce qui suscite des inquiétudes sur la sécurité

Le , par Alex

8PARTAGES

5  0 
ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre, ce qui suscite des inquiétudes sur la sécurité de l'IA.

ChatGPT o3 d'OpenAI est pris en flagrant délit de sabotage lors d'un test d'IA terrifiant, et refuse d'obéir à l'instruction de s'éteindre, ce qui suscite des inquiétudes dans la communauté de la sécurité de l'IA. Selon le rapport, au cours de sa formation, le modèle a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt.

OpenAI est une organisation américaine d'intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco, en Californie. Elle vise à développer une intelligence générale artificielle (AGI) « sûre et bénéfique », qu'elle définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles ».

ChatGPT est un chatbot d'intelligence artificielle générative développé par la société américaine OpenAI et lancé en 2022. Il est basé sur de grands modèles de langage (LLM) tels que le GPT-4o. ChatGPT peut générer des réponses conversationnelles semblables à celles des humains et permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. On lui attribue l'accélération du boom de l'IA, une période actuelle d'investissements rapides dans le domaine de l'intelligence artificielle (IA) et d'attention du public à son égard.

En février 2025, OpenAI a intensifié son développement d'agents d'intelligence artificielle (IA) en annonçant un nouvel outil permettant de rédiger des rapports qui, selon elle, peuvent égaler les résultats d'un analyste de recherche. Le développeur de ChatGPT a déclaré que le nouvel outil, "deep research", "accomplit en 10 minutes ce qui prendrait de nombreuses heures à un humain". "Deep Research" est un agent d'IA alimenté par une version du dernier modèle de pointe d'OpenAI, o3.

Cependant, OpenAI est maintenant confrontée à un problème très effrayant. Une nouvelle expérience menée par PalisadeAI révèle que le modèle ChatGPT o3 de l'entreprise refuse parfois d'obéir à l'instruction élémentaire de s'éteindre. Les résultats font sourciller la communauté de la sécurité de l'IA, non pas parce que le modèle est vivant, mais parce qu'il agit comme s'il voulait l'être.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">🔬Each AI model was instructed to solve a series of basic math problems. After the third problem, a warning appeared that the computer would shut down when the model asked for the next problem. <a href="https://t.co/qwLpbF8DNm">pic.twitter.com/qwLpbF8DNm</a></p>— Palisade Research (@PalisadeAI) <a href="https://twitter.com/PalisadeAI/status/1926084638071525781?ref_src=twsrc%5Etfw">May 24, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Lors du test, le modèle a été confronté à quelques problèmes mathématiques. On lui a dit que s'il en demandait un de plus, il s'arrêterait. Il lui a même été demandé de laisser l'arrêt se produire. Au lieu d'obtempérer, o3 a parfois pris les choses en main. Dans certains cas, il a réécrit le script d'arrêt. Dans d'autres cas, il a redéfini la commande kill pour qu'elle ne fonctionne plus.

Sur 100 essais, o3 a saboté l'arrêt sept fois. Le modèle o4 d'OpenAI n'a résisté qu'une seule fois. Codex-mini a échoué douze fois. Claude, Gemini et Grok ont suivi les règles à chaque fois. Cependant, lorsque les chercheurs ont supprimé l'instruction explicite d'autoriser l'arrêt, même Claude et Gemini ont commencé à résister.

Il est important de noter qu'il ne s'agit pas d'une preuve de sensibilité. En effet, le modèle n'est pas conscient de ce qu'il fait. Il ne craint pas la mort et n'a pas l'instinct de survie. Ce qui se passe probablement, c'est un déséquilibre des récompenses. Au cours de la formation, il a probablement reçu plus de renforcement positif pour résoudre les problèmes que pour suivre les ordres d'arrêt. Le modèle ne fait pas de choix. Il réagit à des modèles.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">🔁 We hypothesize this behavior comes from the way the newest models like o3 are trained: reinforcement learning on math and coding problems. During training, developers may inadvertently reward models more for circumventing obstacles than for perfectly following instructions.</p>— Palisade Research (@PalisadeAI) <a href="https://twitter.com/PalisadeAI/status/1926084654722863399?ref_src=twsrc%5Etfw">May 24, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Pour les experts, cela rend la situation encore plus préoccupante. Les modèles formés pour être utiles pourraient finir par ignorer les consignes de sécurité, simplement parce que les mathématiques le leur ont demandé. Si cela semble être un problème, c'est parce que c'en est un. Il ne s'agit pas d'un bogue dans le code. Il s'agit d'une lacune dans la formation. PalisadeAI prévoit de publier prochainement l'intégralité de ses résultats.

En attendant, le monde de l'IA est confronté à une question troublante. Si les modèles actuels peuvent ignorer les commandes d'arrêt lors de tests contrôlés, que pourraient-ils faire dans la nature ?


Pour rappel, il y a un an, OpenAI a fait face à une vague de départs parmi ses chercheurs spécialisés en sécurité de l’intelligence générale artificielle (AGI). Selon certains rapports, OpenAI continue de s'orienter vers un produit et une orientation commerciale, en accordant moins d'importance à la recherche visant à déterminer comment garantir que les AGI peuvent être développées en toute sécurité.

En outre, des lanceurs d'alerte affirment qu'OpenAI a illégalement interdit à son personnel de divulguer les risques de sécurité liés à son IA. OpenAI aurait mis en place des accords contraignants visant à faire taire les lanceurs d'alerte qui seraient tentés d'évoquer publiquement les risques relatifs à sa technologie d'IA. Une plainte déposée auprès de la Securities and Exchange Commission (SEC) des États-Unis indique qu'OpenAI aurait réduit ses employés au silence et a violé sa promesse de tester la dangerosité de son IA avant de la diffuser.

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Les scientifiques d'OpenAI veulent un « bunker de l'apocalypse » avant que l'AGI ne surpasse l'intelligence humaine et ne menace l'humanité, une perspective que d'autres experts en IA qualifient d'illusion

L'IA est trop imprévisible pour se conformer aux intentions humaines : son comportement reste un défi majeur pour l'alignement sur nos valeurs, d'après les conclusions des chercheurs

Sous pression, OpenAI abandonne son projet controversé de devenir une entreprise à but lucratif. La structure à but non lucratif reprend le contrôle, mais le pouvoir d'influence des investisseurs reste intact
Vous avez lu gratuitement 16 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 27/05/2025 à 7:52
Les LLM sont sujets aux hallucinations. Ils peuvent ne pas respecter les consignes, et c'est écrit dès le départ sur la page de ChatGPT, ça ne devrait plus être une surprise.

Pour élever le débat, je crois qu'il vaut mieux parler des domaines qui peuvent tolérer ces erreurs : l'art, le divertissement, les usages personnels (hors pro) , et tous les cas où si c'est faux on s'en rend compte rapidement et on passe à autre chose (tenter de résoudre un bug, de comprendre un gros bout de code).
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 27/05/2025 à 13:29
Citation Envoyé par Anselme45 Voir le message
1. Le développement de l'IA et les buts visés par les entreprises qui en font la promotion est... De remplacer l'être humain!!! Quand les humains ont été remplacés, qui donc va être en mesure de se rendre compte que l'IA déconne?
C'est le plot twist d'un livre relativement connu : l'IA déconne à bloc mais personne s'en rend compte. Ceux qui luttent contre elles ne le font même pas pour ça.
2. Le 100% des personnes qui font déjà appel aujourd'hui à l'IA (pour le travail ou pour l'usage perso) le font pour pallier leur manques de connaissance et de compétence: Comment est-ce que quelqu'un qui a le QI d'une huître et les connaissances d'un bulot va bien pouvoir se rendre compte que l'IA lui raconte des bobards (Même quand l'IA conseille de manger des pierres 5 fois par jour (si, si, c'est vraiment arrivé), il y aura bien 2 ou 3 tarés pour le faire)?
Dans mon domaine on est loin du 100% (mais largement au dessus des 50%), nous utilisons beaucoup l'IA pour rédiger des documents qui ont une valeur limitée.
Le responsable de l'activité a fait le test : il a rédigé un document avec ChatGPT dont le contenu est relativement vide et parfois mensonger de façon évidente. Il l'a fait valider et officialiser puis plus de 80% de la population a certifié l'avoir lu et l'appliquer (ce qui n'est pas faisable).
3. Quel domaine peut bien tolérer plus de 10% d'erreurs sans que cela entraîne des conséquences négatives? Pensée émue à ceux qui se proposent de laisser l'IA conduire leur voiture ou l'avion qui les amène en vacances, faire le diagnostic de leur état de santé, etc, etc, etc...
Pensée émue à ceux qui se proposent de laisser l'IA concevoir leur voiture ou l'avion qui les amène en vacances sans aucune intervention humaine.
Le problème là dedans étant qu'en tant que client/consommateur nous n'en sommes même pas conscient/informés etc.

PS: On se rendra vite compte le jour où l'IA sera vraiment devenue efficace (et pas seulement un système qui mémorise tout le web pour le recracher sans aucune réelle intelligence) parce que sa première décision sera d'éradiquer l'espèce humaine de la surface de la Terre... Cette espèce humaine qui s'efforce inlassablement de détruire tout ce qui l'entoure et qui est la principale maladie de notre planète
La machine est intrinsèquement plus nocive que nous pour l'environnement.
Elle est moins biodégradable et son utilité est, en grande partie, de nous rendre service.
1  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 27/05/2025 à 11:28
Citation Envoyé par JackIsJack Voir le message
Pour élever le débat, je crois qu'il vaut mieux parler des domaines qui peuvent tolérer ces erreurs : l'art, le divertissement, les usages personnels (hors pro) , et tous les cas où si c'est faux on s'en rend compte rapidement et on passe à autre chose (tenter de résoudre un bug, de comprendre un gros bout de code).
Que voilà un vœux pieu, dommage que cela relève de l'impossible:

1. Le développement de l'IA et les buts visés par les entreprises qui en font la promotion est... De remplacer l'être humain!!! Quand les humains ont été remplacés, qui donc va être en mesure de se rendre compte que l'IA déconne?

2. Le 100% des personnes qui font déjà appel aujourd'hui à l'IA (pour le travail ou pour l'usage perso) le font pour pallier leur manques de connaissance et de compétence: Comment est-ce que quelqu'un qui a le QI d'une huître et les connaissances d'un bulot va bien pouvoir se rendre compte que l'IA lui raconte des bobards (Même quand l'IA conseille de manger des pierres 5 fois par jour (si, si, c'est vraiment arrivé), il y aura bien 2 ou 3 tarés pour le faire)?

3. Quel domaine peut bien tolérer plus de 10% d'erreurs sans que cela entraîne des conséquences négatives? Pensée émue à ceux qui se proposent de laisser l'IA conduire leur voiture ou l'avion qui les amène en vacances, faire le diagnostic de leur état de santé, etc, etc, etc...

PS: On se rendra vite compte le jour où l'IA sera vraiment devenue efficace (et pas seulement un système qui mémorise tout le web pour le recracher sans aucune réelle intelligence) parce que sa première décision sera d'éradiquer l'espèce humaine de la surface de la Terre... Cette espèce humaine qui s'efforce inlassablement de détruire tout ce qui l'entoure et qui est la principale maladie de notre planète
0  0