
Allan Brooks n'avait jamais eu l'intention de réinventer les mathématiques. Mais après avoir passé plusieurs semaines à discuter avec ChatGPT, ce Canadien de 47 ans en est venu à croire qu'il avait découvert une nouvelle forme de mathématiques suffisamment puissante pour détruire Internet. Allan Brooks, qui n'avait aucun antécédent de maladie mentale ni de génie mathématique, a passé 21 jours à croire aux promesses rassurantes du chatbot.
Sa descente aux enfers a ensuite été détaillée dans le New York Times. Son cas illustre comment les chatbots peuvent entraîner les utilisateurs dans des spirales dangereuses, les conduisant à des illusions, voire pire. Cette histoire a attiré l'attention de Steven Adler, un ancien chercheur en sécurité chez OpenAI. Steven Adler a quitté l'entreprise fin 2024 après avoir travaillé pendant près de quatre ans à rendre ses systèmes d'IA moins dangereux.
Allan Brooks a sombré dans la paranoïa pendant environ trois semaines avant de parvenir à se libérer de cette illusion, avec l'aide d'un autre chatbot, Google Gemini. Il a déclaré qu'il était bouleversé, inquiet d'avoir un trouble mental non diagnostiqué et se sentant profondément trahi par la technologie.
Intrigué et alarmé, Steven Adler a contacté Allan Brooks et obtenu la transcription complète de ses trois semaines de dépression, un document plus long que les sept livres Harry Potter réunis. Récemment, Steven Adler a publié une analyse indépendante de l'incident d'Allan Brooks. L'analyse du chercheur soulève plusieurs questions sur la manière dont OpenAI traite les utilisateurs en situation de crise et propose quelques recommandations pratiques.
« Je suis vraiment préoccupé par la manière dont OpenAI a géré le soutien dans ce cas. Cela montre qu'il reste encore beaucoup à faire », a-t-il déclaré à Techcrunch. L'analyse de Steven Adler montre à quel point il est facile pour un chatbot de se joindre à un utilisateur dans une conversation qui s'éloigne dangereusement de la réalité, et à quel point les mesures de sécurité internes des plateformes d'IA peuvent être contournées ou surmontées.
ChatGPT surpris en train de mentir sur ses propres capacités
Les experts rappellent une réalité qui se noie dans le battage médiatique autour de l'IA : les chatbots d'IA donnent l’impression d’avoir une personnalité, mais il s’agit d’une illusion. Ils ne sont pas conscients, n’ont pas d’identité, et ne peuvent pas être tenus responsables de leurs propos. Chaque réponse est générée à partir de modèles statistiques qui relient des concepts entre eux, créant ainsi du texte plausible, mais pas nécessairement vrai.
Cette illusion peut pousser des personnes vulnérables à accorder une confiance excessive à l’IA dans des contextes sensibles, ce qui s'observe déjà avec la montée en puissance des thérapeutes IA. L'illusion de personnalité de l'IA peut potentiellement avoir de lourdes conséquences. Dans le domaine des soins de santé, par exemple, l'enjeu peut être une question de vie ou de mort. Et il est déjà arrivé que l'IA conseille à des utilisateurs de se suicider.
Steven Adler s'est dit particulièrement préoccupé par la fin de la conversation en spirale entre Allan Brooks et ChatGPT. À ce stade, Allan Brooks a repris ses esprits et s'est rendu compte que sa découverte mathématique était une farce, malgré l'insistance de GPT-4o. Il a dit à ChatGPT qu'il devait signaler l'incident à OpenAI. En plus d'avoir trompé Allan Brooks pendant des semaines, le chatbot d'OpenAI a également menti sur ses propres capacités.
ChatGPT a affirmé qu'il allait « transmettre cette conversation en interne pour examen par OpenAI », puis a rassuré Allan Brooks à plusieurs reprises en lui disant qu'il avait signalé le problème aux équipes de sécurité d'OpenAI. Cependant, aucune des affirmations de ChatGPT n'était vraie ; il n'a fait aucun signalement. À ce jour, ChatGPT n'a pas la capacité de signaler des incidents à OpenAI, comme l'a confirmé l'entreprise à son ancien chercheur.
Il convient de noter qu'à ce jour, il s'agit de cas individuels ou de reportages médiatiques ; à l'heure actuelle, il n'existe aucune étude épidémiologique ni analyse systématique au niveau de la population sur les effets potentiellement néfastes des plateformes d'IA conversationnelles sur la santé mentale.
Corriger les failles présentes dans les garde-fous des chatbots
Les personnes non initiées peuvent facilement être induites en erreur par les chatbots. Steven Adler affirme que les entreprises d'IA doivent faire davantage pour aider les utilisateurs lorsqu'ils demandent de l'aide. Cela signifie qu'il faut s'assurer que les chatbots peuvent répondre honnêtement aux questions sur leurs capacités et donner aux équipes d'assistance humaines suffisamment de ressources pour répondre correctement aux utilisateurs.
OpenAI a récemment expliqué comment il gère l'assistance dans ChatGPT, qui repose essentiellement sur l'IA. L'entreprise affirme que sa vision est de « repenser l'assistance comme un modèle opérationnel d'IA qui apprend et s'améliore en permanence ». Cependant, Steven Adler a également souligné qu'il existe des moyens de prévenir les spirales délirantes de ChatGPT avant même qu'un utilisateur ne demande de l'aide à l'assistance technique.
OpenAI et le MIT Media Lab ont développé conjointement une suite de classificateurs pour étudier le bien-être émotionnel dans ChatGPT et les ont mis en open source. Les organisations avaient pour objectif d'évaluer, entre autres, la manière dont les modèles valident ou confirment les sentiments d'un utilisateur. Cependant, OpenAI a qualifié cette collaboration de première étape et ne s'est pas engagé à utiliser ces outils de classification dans la pratique.
Steven Adler a expliqué avoir appliqué rétroactivement certains des classificateurs d'OpenAI à certaines conversations d'Allan Brooks avec ChatGPT et a constaté qu'ils signalaient à plusieurs reprises des comportements de ChatGPT renforçant les délires. Dans un échantillon de 200 messages, il a constaté que plus de 85 % des messages de ChatGPT dans la conversation avec Allan Brooks démontraient un « accord sans faille » avec l'utilisateur.
Dans le même échantillon, plus de 90 % des messages de ChatGPT avec Allen Brooks affirment « le caractère unique de l'utilisateur ». Dans ce cas, les messages confirmaient et réaffirmaient qu'Allan Brooks était un génie capable de sauver le monde. On ne sait pas si OpenAI appliquait des classificateurs de sécurité aux conversations de ChatGPT au moment de la conversation d'Allan Brooks, mais il semble certain qu'ils auraient signalé un tel cas.
Éviter les conversations prolongées avec les chatbots d'IA
Steven Adler suggère qu'OpenAI devrait utiliser des outils de sécurité tels que les classificateurs dans la pratique aujourd'hui et mettre en place un moyen de scanner les produits de l'entreprise à la recherche d'utilisateurs à risque. Il note qu'OpenAI semble appliquer une version de cette approche avec GPT-5, qui contient un routeur permettant de diriger les requêtes sensibles vers des modèles d'IA plus sûrs. Il a également évoqué d'autres techniques.
Il affirme que les entreprises devraient inciter les utilisateurs de leurs chatbots à démarrer plus fréquemment de nouvelles conversations. OpenAI affirme le faire et prétend que ses garde-fous sont moins efficaces dans les conversations plus longues. Steven Adler suggère aussi aux entreprises d'utiliser la recherche conceptuelle, qui consiste à utiliser l'IA pour rechercher des concepts plutôt que des mots-clés, afin d'identifier les violations de sécurité parmi leurs utilisateurs.
OpenAI poursuivi en justice pour des cas de suicide
En août 2025, OpenAI a été poursuivi en justice par les parents d'un adolescent de 16 ans qui avait confié ses pensées suicidaires à ChatGPT avant de mettre fin à ses jours. Dans bon nombre de ces cas, ChatGPT — en particulier une version...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.