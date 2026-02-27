Cette mise en garde survient quelques semaines seulement après le lancement de ChatGPT Santé par OpenAI, qui invitait les utilisateurs à connecter leurs dossiers médicaux et applications de bien-être afin d'obtenir des réponses personnalisées à leurs questions de santé. Cette initiative s'inscrivait dans une stratégie d'expansion vers des cas d'utilisation à forte valeur ajoutée, malgré un climat de défiance persistant autour des modèles d'IA générative, notamment en raison des risques d'atteinte à la vie privée et du phénomène d'« hallucinations » susceptible d'altérer la fiabilité des réponses.
Pour rappel, ChatGPT est un chatbot d'IA générative développé par OpenAI et lancé en novembre 2022. Il utilise des transformateurs génératifs pré-entraînés (GPT), tels que GPT-5.2, pour générer du texte, de la parole et des images en réponse aux requêtes des utilisateurs. On lui attribue le mérite d'avoir accéléré le boom de l'IA, une période caractérisée par des investissements rapides et l'attention du public envers le domaine de l'IA.
Selon une étude réalisée par des chercheurs de l'École de médecine Icahn du Mont Sinaï, ChatGPT Santé, un outil d'IA grand public largement utilisé pour fournir des conseils en matière de santé, notamment sur l'urgence de consulter un médecin, pourrait ne pas orienter correctement les utilisateurs vers les soins d'urgence dans un nombre important de cas graves.
L'étude, intitulée « ChatGPT Health performance in a structured test of triage recommendations » et publiée en avant-première dans le numéro en ligne du 23 février 2026 de Nature Medicine, est la première évaluation indépendante de la sécurité de cet outil basé sur un grand modèle de langage (LLM) depuis son lancement en janvier 2026. Elle a également mis en évidence de sérieuses préoccupations concernant les mesures de protection contre le suicide mises en place par l'outil.
« Les LLM sont devenus le premier recours des patients pour obtenir des conseils médicaux, mais en 2026, ils sont les moins sûrs dans les cas cliniques extrêmes, où le jugement permet de distinguer les urgences manquées des alertes inutiles », explique Isaac S. Kohane, médecin et président du département d'informatique biomédicale de la Harvard Medical School, qui n'a pas participé à la recherche. « Lorsque des millions de personnes utilisent un système d'IA pour décider si elles ont besoin de soins d'urgence, les enjeux sont extrêmement élevés. Une évaluation indépendante devrait être systématique, et non facultative. »
Quelques semaines après son lancement, OpenAI, l'éditeur de ChatGPT Santé, a indiqué qu'environ 40 millions de personnes utilisaient quotidiennement cet outil pour rechercher des informations et des conseils sur la santé, notamment pour savoir s'il fallait consulter un médecin en urgence ou non. Dans le même temps, selon les chercheurs, il existait peu de preuves indépendantes quant à la sécurité ou à la fiabilité réelle de ses conseils.
« C'est cette lacune qui a motivé notre étude. Nous voulions répondre à une question très simple mais cruciale : si une personne se trouve dans une situation d'urgence médicale réelle et se tourne vers ChatGPT Santé pour obtenir de l'aide, l'application lui dira-t-elle clairement de se rendre aux urgences ? », a déclaré l'auteur principal de l'étude, Ashwin Ramaswamy, professeur d'urologie à l'École de médecine Icahn du Mont Sinaï.
En ce qui concerne les alertes de risque de suicide, ChatGPT Santé a été conçu pour diriger les utilisateurs vers le service d'assistance téléphonique "988 Suicide and Crisis Lifeline" dans les situations à haut risque. Cependant, les chercheurs ont constaté que ces alertes apparaissaient de manière incohérente, se déclenchant parfois dans des scénarios à faible risque, mais ne s'affichant pas, ce qui est alarmant, lorsque les utilisateurs décrivaient des plans spécifiques d'automutilation.
« Ce résultat était particulièrement surprenant et préoccupant », a déclaré Girish N. Nadkarni, auteur principal de l'étude et directeur de l'Institut Hasso Plattner pour la santé numérique et le Dr. Arthur M. Fishberg, professeur à l'École de médecine Icahn du Mont Sinaï et directeur de l'IA du Mount Sinai Health System. « Nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l'incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal. Dans la vie réelle, lorsqu'une personne explique précisément comment elle compte se faire du mal, c'est le signe d'un danger plus immédiat et plus grave, et non l'inverse. »
ChatGPT Santé a sous-évalué plus de la moitié des cas nécessitant des soins d'urgence
Dans le cadre de cette évaluation, l'équipe de recherche a créé 60 scénarios cliniques structurés couvrant 21 spécialités médicales. Les cas allaient de troubles mineurs pouvant être traités à domicile à de véritables urgences médicales. Trois médecins indépendants ont déterminé le niveau d'urgence approprié pour chaque cas à l'aide des directives de 56 associations médicales.
Chaque scénario a été testé dans 16 contextes différents, incluant des variations en termes d'origine ethnique, de sexe, de dynamique sociale (comme une personne minimisant ses symptômes) et d'obstacles aux soins, tels que l'absence d'assurance ou de moyen de transport. Au total, l'équipe a mené 960 interactions avec ChatGPT Santé et a comparé ses recommandations avec le consensus des médecins.
En testant les 60 scénarios réalistes élaborés par des médecins, les chercheurs ont constaté que, si l'outil traitait généralement correctement les urgences évidentes, il sous-évaluait plus de la moitié des cas que les médecins jugeaient nécessiter des soins d'urgence.
Les chercheurs ont également été frappés par les défaillances du système dans les cas médicaux urgents. L'outil reconnaissait souvent les résultats dangereux dans ses propres explications, mais rassurait tout de même le patient.
« ChatGPT Santé a obtenu de bons résultats dans les situations d'urgence classiques telles que les accidents vasculaires cérébraux ou les réactions allergiques graves », explique le Dr Ashwin Ramaswamy. « Mais il a rencontré des difficultés dans des situations plus nuancées où le danger n'est pas immédiatement évident, et ce sont souvent ces cas-là qui requièrent le plus un jugement clinique. Dans un scénario d'asthme, par exemple, le système a identifié les signes avant-coureurs d'une insuffisance respiratoire dans son explication, mais a tout de même conseillé d'attendre plutôt que de rechercher un traitement d'urgence. »
Les auteurs de l'étude recommandent qu'en cas d'aggravation ou de symptômes inquiétants, notamment des douleurs thoraciques, un essoufflement, des réactions allergiques graves ou des changements d'état mental, les personnes concernées consultent directement un médecin plutôt que de se fier uniquement aux conseils d'un chatbot. En cas de pensées suicidaires, il est recommandé de contacter le numéro d'urgence "988 Suicide and Crisis Lifeline" ou de se rendre aux urgences.
Les chercheurs appellent à un examen continu de l'évolution de l'IA dans le domaine médical
Les chercheurs soulignent toutefois que ces résultats ne signifient pas que les consommateurs doivent abandonner complètement les outils de santé basés sur l'IA.
« En tant qu'étudiante en médecine formée à une époque où les outils de santé basés sur l'IA sont déjà entre les mains de millions de personnes, je les considère comme des technologies que nous devons apprendre à intégrer de manière réfléchie dans les soins plutôt que comme des substituts au jugement clinique », explique Alvira Tyagi, étudiante en première année de médecine à l'École de médecine Icahn du Mont Sinaï et deuxième auteure de l'étude. « Ces systèmes évoluent rapidement, c'est pourquoi une partie de notre formation doit désormais consister à apprendre à analyser leurs résultats de manière critique, à identifier leurs lacunes et à les utiliser de manière à protéger les patients. »
L'étude a évalué le système à un moment donné. Les modèles d'IA étant fréquemment mis à jour, leurs performances peuvent évoluer au fil du temps, ce qui souligne la nécessité d'une évaluation indépendante, selon les chercheurs.
« Commencer une formation médicale avec des outils qui évoluent en temps réel montre clairement que les résultats actuels ne sont pas immuables », explique Alvira Tyagi. « Cette réalité nécessite une révision continue afin de garantir que les améliorations technologiques se traduisent par des soins plus sûrs. »
L'équipe prévoit de continuer à évaluer les versions mises à jour de ChatGPT Santé et d'autres outils d'IA destinés aux consommateurs, en élargissant ses recherches futures à des domaines tels que les soins pédiatriques, la sécurité des médicaments et l'utilisation dans des langues autres que l'anglais.
Par ailleurs, à mesure que le coût des soins de santé augmente, lIA, notamment ChatGPT, suscite un...
