Les modèles d'IA hallucinent, et les médecins seraient d'accord avec cela : un défi pour la sécurité des patients,

Selon une étude d'un collectif de chercheurs

Le 15 mars 2025 à 16:36, par Bruno

43PARTAGES

Les modèles d'IA hallucinent, et les médecins seraient d'accord avec cela : un défi pour la sécurité des patients,
selon une étude d'un collectif de chercheurs

Une étude intitulée Medical Hallucinations in Foundation Models and Their Impact on Healthcare, disponible sur GitHub, met en avant la nécessité de développer des stratégies pour atténuer les risques liés à l'utilisation de l'intelligence artificielle (IA) dans le domaine de la santé. Les auteurs soulignent que les modèles de base, conçus par des entreprises telles qu'Anthropic, Google, Meta et OpenAI, présentent des opportunités prometteuses, notamment pour soutenir la prise de décision clinique et améliorer la qualité des soins. Toutefois, l’intégration des modèles d’intelligence artificielle dans le domaine médical soulève un débat complexe, situé à l’intersection des avancées technologiques et des risques liés à leur fiabilité.

Une équipe de 25 experts, issus d'institutions médicales et technologiques prestigieuses comme le MIT, la Harvard Medical School, l'université de Washington, Carnegie Mellon, l'hôpital de l'université nationale de Séoul, Google, Columbia et Johns Hopkins, a examiné les erreurs produites par ces modèles de base. Leur objectif principal est de formuler des recommandations visant à garantir une intégration sécurisée et efficace de l'IA dans les systèmes de soins de santé.

Les modèles capables de traiter et de générer des données multimodales ont révolutionné le rôle de l’IA dans le domaine médical. Toutefois, leur fiabilité est compromise par le phénomène d’hallucination, où des informations erronées ou inventées peuvent influencer les décisions cliniques et compromettre la sécurité des patients. Les chercheurs définissent l’hallucination médicale comme toute situation où un modèle produit un contenu médical trompeur. Leurs travaux incluent plusieurs contributions majeures :

une taxonomie pour mieux comprendre et traiter les hallucinations médicales ;
l’étalonnage des modèles à l’aide d’un ensemble de données sur les hallucinations médicales et de réponses annotées par des médecins à des cas réels, offrant un aperçu concret de leur impact clinique ;
une enquête multinationale auprès de cliniciens sur leurs expériences avec les hallucinations médicales.

Les résultats indiquent que des techniques d’inférence, telles que la chaîne de pensée (CoT) et la génération augmentée de recherche, permettent de réduire de manière significative les taux d’hallucinations. Cependant, malgré ces progrès, des erreurs persistantes à des niveaux préoccupants subsistent. Ces constats soulignent l’impératif éthique et pratique de développer des stratégies solides de détection et d’atténuation, jetant ainsi les bases de politiques réglementaires qui privilégient la sécurité des patients et préservent l’intégrité clinique, notamment à mesure que l’IA s’intègre davantage dans le domaine des soins de santé.

Les retours des professionnels de santé mettent également en avant l’urgence de progresser non seulement sur le plan technique, mais aussi en établissant des directives éthiques et réglementaires claires pour assurer une utilisation sûre et responsable de ces technologies.

Aperçu des hallucinations médicales générées par les LLM de pointe

Taux d'hallucinations évalués par des experts médicaux et analyse des risques potentiels sur trois tâches de raisonnement médical utilisant les dossiers du NEJM ;
Exemples représentatifs d'hallucinations médicales tirés des travaux de Chen et al. (2024) et Vishwanath et al. (2024) ;
Répartition géographique des incidents d'hallucinations médicales rapportés par les cliniciens, fournissant une perspective mondiale sur le problème.

Des chercheurs de l’Université d’Oxford ont développé une nouvelle méthode pour détecter les hallucinations dans les grands modèles de langage (LLM) comme ChatGPT et Gemini. En s’appuyant sur des estimateurs d’incertitude basés sur l’entropie, leur approche permet d’identifier les réponses arbitraires et incorrectes, ou « confabulations », sans nécessiter de données préalables spécifiques à une tâche donnée. Cette méthode améliore la fiabilité des LLM dans diverses applications, favorisant ainsi des interactions basées sur l’IA plus sûres et plus précises.

Dans leur étude, les chercheurs du département d’informatique de l’Université d’Oxford ont conçu des méthodes statistiques innovantes, proposant des estimateurs d’incertitude basés sur l’entropie pour les LLM afin de détecter un sous-ensemble d’hallucinations – les confabulations – qui correspondent à des générations erronées et arbitraires. Leur approche prend en compte le fait qu’une idée peut être exprimée de multiples façons en calculant l’incertitude au niveau du sens plutôt qu’au niveau de séquences de mots spécifiques.

Selon les auteurs, cette méthode est applicable à tous les ensembles de données et à toutes les tâches sans nécessiter de connaissances préalables spécifiques, ne requiert pas de données dédiées à une tâche particulière, et s’adapte de manière robuste à de nouvelles tâches inédites. En identifiant les situations où une invite est susceptible de générer une confabulation, cette méthode aide les utilisateurs à mieux évaluer quand exercer une vigilance accrue avec les LLM. Elle ouvre également de nouvelles perspectives d’utilisation des LLM, qui étaient jusqu’alors limitées par leur manque de fiabilité.

Comprendre les hallucinations des modèles de langage : entre erreurs et surréalisme

L'hallucination de l'IA est un phénomène dans lequel un grand modèle de langage (LLM) - souvent un chatbot d'IA générative ou un outil de vision par ordinateur - perçoit des modèles ou des objets qui sont inexistants ou imperceptibles pour les observateurs humains, créant des résultats qui sont absurdes ou tout à fait inexacts.
En règle générale, lorsqu'un utilisateur sollicite un outil d'IA générative, il souhaite obtenir un résultat qui réponde de manière appropriée à l'invite (c'est-à-dire une réponse correcte à une question). Cependant, il arrive que les algorithmes d'IA produisent des résultats qui ne sont pas basés sur des données d'apprentissage, qui sont mal décodés par le transformateur ou qui ne suivent aucun modèle identifiable. En d'autres termes, la réponse est « hallucinée ».

Ce terme peut sembler paradoxal, étant donné que les hallucinations sont généralement associées à des cerveaux humains ou animaux, et non à des machines. Mais d'un point de vue métaphorique, l'hallucination décrit précisément ces résultats, en particulier dans le cas de la reconnaissance d'images et de formes (où les résultats peuvent avoir une apparence véritablement surréaliste). Les hallucinations de l'IA sont similaires à la façon dont les humains voient parfois des figures dans les nuages ou des visages sur la lune. Dans le cas de l'IA, ces interprétations erronées sont dues à divers facteurs, notamment le surajustement, le biais ou l'inexactitude des données d'apprentissage et la grande complexité du modèle.

Il peut s'avérer difficile de prévenir les problèmes liés aux technologies génératives à source ouverte. Voici quelques exemples notables d'hallucinations de l'IA :

Le chatbot Bard de Google a affirmé à tort que le télescope spatial James Webb avait capturé les premières images au monde d'une planète située en dehors de notre système solaire ;
Sydney, l'IA de chat de Microsoft, a admis être tombée amoureuse des utilisateurs et avoir espionné les employés de Bing ;
Meta a retiré sa démo Galactica LLM en 2022, après avoir fourni aux utilisateurs des informations inexactes, parfois fondées sur des préjugés.

Bien que nombre de ces problèmes aient été traités et résolus depuis, il est facile de voir comment, même dans les meilleures circonstances, l'utilisation d'outils d'IA peut avoir des conséquences imprévues et indésirables.

L’hallucination est un phénomène inévitable et constitue une limitation intrinsèque des grands modèles de langage en intelligence artificielle, selon une étude explorant la possibilité d’éliminer ces erreurs. Dans leurs travaux, trois chercheurs de l’École d’informatique de l’Université nationale de Singapour ont formalisé le problème et démontré qu’il est impossible de supprimer complètement les hallucinations dans les LLM. Pour ce faire, ils ont défini un monde formel où l’hallucination est caractérisée par des incohérences entre un LLM calculable et une fonction de vérité de base calculable. En s’appuyant sur des résultats issus de la théorie de l’apprentissage, ils prouvent que les LLM ne peuvent pas apprendre toutes les fonctions calculables, ce qui implique que des hallucinations persisteront toujours.

Étant donné que le monde formel représente une simplification du monde réel, bien plus complexe, les hallucinations sont également inévitables pour les LLM déployés dans des contextes réels. De plus, pour les LLM soumis à des contraintes de complexité temporelle prouvables, les chercheurs identifient les types de tâches particulièrement sujettes aux hallucinations et valident empiriquement leurs conclusions. Enfin, en utilisant ce cadre formel, ils examinent les mécanismes possibles et l’efficacité des méthodes existantes pour atténuer les hallucinations, tout en discutant des implications pratiques pour un déploiement sûr des LLM.

L'équilibre délicat entre IA et expertise humaine dans le contexte médical

Dans le contexte médical, l'impact de ces hallucinations prend une dimension critique. Une étude récente, impliquant des experts de diverses institutions prestigieuses, met en évidence la fréquence et la nature de ces erreurs, tout en cherchant à développer des stratégies d'atténuation. Les résultats soulignent la nécessité d'une surveillance humaine constante, notamment en raison de l'effet trompeur de la précision apparente des réponses fournies par ces modèles.

L'usage croissant de l'IA dans le secteur de la santé et la confiance accordée par certains professionnels médicaux, malgré les risques avérés, posent des questions fondamentales sur la régulation et la responsabilité juridique. Qui doit répondre en cas d'erreur : le développeur, le praticien ou l'institution qui intègre ces outils dans ses protocoles ? En l'absence de cadres réglementaires clairs, les interrogations persistent, rappelant que la précision technologique ne saurait se substituer à l'expertise humaine sans un encadrement rigoureux.

Les modèles d'intelligence artificielle sont parfois sujets à des « hallucinations », produisant des informations erronées avec une assurance trompeuse. Cependant, ce phénomène ne suffit pas à justifier leur exclusion du secteur médical. Conscients des risques, des chercheurs ont entrepris de les identifier et de proposer un cadre permettant aux professionnels de santé d'utiliser ces outils avec prudence. Plutôt que de rejeter ces modèles, les chercheurs ont élaboré une classification des hallucinations médicales, qu'ils distinguent des erreurs plus générales de l'IA. « Ces erreurs se manifestent dans des tâches spécialisées, comme le diagnostic, la planification thérapeutique ou l'interprétation de résultats, où elles peuvent avoir un impact direct sur les soins aux patients », expliquent-ils. De plus, elles intègrent souvent des termes techniques et suivent une logique apparente, rendant leur détection difficile sans expertise humaine.

Leur taxonomie, illustrée par un diagramme circulaire, identifie plusieurs types d'erreurs : inexactitudes factuelles, références obsolètes, corrélations fallacieuses, sources inventées et raisonnements incomplets. Cette classification vise à mieux comprendre les défaillances de l'IA et à favoriser une utilisation responsable dans le domaine médical.

Les hallucinations de l'IA : une métaphore utile ou un écran de fumée ?

L’intégration des modèles d’intelligence artificielle dans le domaine médical soulève un débat complexe, situé à l’intersection des avancées technologiques et des risques liés à leur fiabilité. Une critique récurrente porte sur le concept d’« hallucinations », un terme métaphorique fréquemment remis en question pour sa tendance à anthropomorphiser des systèmes basés sur des calculs mathématiques, tout en occultant leur nature fondamentalement statistique.

Certains estiment que ce terme entretient l’illusion que ces modèles possèdent une capacité de compréhension ou de raisonnement, alors qu’ils ne sont en réalité que des outils prédictifs fondés sur l’analyse probabiliste de vastes ensembles de données. D’autres, en revanche, justifient l’usage de cette métaphore, affirmant qu’elle reflète l’expérience des utilisateurs confrontés à des réponses erronées mais présentées avec une assurance déconcertante. Ce débat s’inscrit dans une réflexion plus large sur notre propension à attribuer des traits humains aux outils technologiques, une tendance observable tout au long de l’histoire, que ce soit dans le langage courant ou dans des traditions comme celle qui consiste à attribuer un genre aux navires.

L’IA promet un avenir marqué par une efficacité accrue, une sécurité renforcée et une précision sans précédent, mais cette promesse s’accompagne de défis majeurs. Par exemple, les chatbots d’IA peuvent parfois générer des affirmations fausses et diffamatoires. Un cas notable est celui d’un maire australien qui a menacé de poursuivre OpenAI après que ChatGPT ait faussement affirmé qu’il avait été emprisonné pour corruption. L’affaire a été résolue à l’amiable lorsque OpenAI a retiré ces déclarations erronées de son système.

Les travaux des chercheurs sur les hallucinations des modèles d’IA, en particulier dans le domaine médical, soulèvent des questions cruciales à la fois techniques, éthiques et réglementaires. Leur approche, qui inclut une taxonomie des hallucinations médicales, l’étalonnage des modèles à l’aide de données annotées par des experts, et une enquête multinationale auprès des cliniciens, démontre une volonté de comprendre et de mitiger les risques associés à ces technologies. Cependant, ces efforts ne suffisent pas à éliminer entièrement le problème, car des niveaux significatifs d’erreurs persistent malgré les techniques d’inférence comme la chaîne de pensée (CoT) ou la génération augmentée de recherche. Cela met en lumière la nécessité d’une vigilance accrue et d’un cadre réglementaire robuste pour garantir la sécurité des patients et l’intégrité clinique.

Sur le plan critique, l’utilisation du terme « hallucination » pour décrire les erreurs des modèles d’IA suscite des débats légitimes. D’un côté, cette métaphore est efficace pour décrire l’expérience utilisateur, où des réponses erronées sont produites avec une assurance trompeuse. D’un autre côté, elle risque d’anthropomorphiser ces systèmes, en laissant croire qu’ils possèdent une forme de compréhension ou de conscience, ce qui n’est pas le cas. Les LLM sont fondamentalement des modèles statistiques prédictifs, incapables de raisonner ou de comprendre la vérité au sens humain du terme. Cette distinction est essentielle pour éviter une confiance excessive dans ces technologies, surtout dans des domaines critiques comme la médecine.

Par ailleurs, les réactions des cliniciens et des experts soulignent l’urgence de clarifier les responsabilités juridiques et éthiques liées à l’utilisation de l’IA en santé. Qui est responsable en cas d’erreur : le développeur, le praticien ou l’institution ? Cette question reste en suspens, et l’absence de cadres réglementaires clairs pourrait freiner l’adoption de ces technologies tout en exposant les patients à des risques inutiles.

Enfin, les débats autour de l’anthropomorphisation des outils technologiques révèlent une tension entre la nécessité de rendre ces systèmes accessibles et compréhensibles pour les utilisateurs, et le risque de leur attribuer des capacités qu’ils n’ont pas. Si les métaphores comme « hallucination » facilitent la communication, elles ne doivent pas occulter la réalité technique sous-jacente. Les chercheurs et les régulateurs doivent donc trouver un équilibre entre innovation technologique, sécurité des patients et éducation du public pour éviter les malentendus et les attentes irréalistes.

En résumé, les travaux des chercheurs constituent une étape importante vers une utilisation plus sûre et plus éthique de l’IA en médecine. Cependant, ils doivent s’accompagner d’un effort continu pour éduquer les utilisateurs, clarifier les responsabilités et renforcer les cadres réglementaires. Sans cela, le potentiel de l’IA dans le domaine médical risque d’être entravé par des erreurs évitables et une méfiance justifiée de la part des professionnels de santé et du public.

Source : Researchers from MIT, Harvard Medical School, Carnegie Mellon, the University of Washington, Johns Hopkins, and Google

Et vous ?

Cette étude présente-t-elle des conclusions crédibles et pertinentes ?

Selon vous, en cas d’erreur ou de préjudice causé par une décision basée sur l’IA, qui serait responsable : les développeurs, les professionnels de santé ou les institutions qui utilisent ces outils ?

Les patients doivent-ils être informés et donner leur consentement explicite lorsque des outils d’IA sont utilisés pour prendre des décisions concernant leur santé ?

Voir aussi :

L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM

La diffamation par l'IA : les hallucinations de ChatGPT peuvent-elles avoir des conséquences dramatiques ? Les géants de l'IA prévoiraient probablement d'esquiver les plaintes

Détecter les hallucinations dans les grands modèles de langage à l'aide de l'entropie sémantique, les LLM tels que ChatGPT peuvent raisonner et répondre aux questions, mais "hallucinent" souvent

Vous avez lu gratuitement 376 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les modèles d'IA hallucinent, et les médecins seraient d'accord avec cela : un défi pour la sécurité des patients,

Selon une étude d'un collectif de chercheurs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les modèles d'IA hallucinent, et les médecins seraient d'accord avec cela : un défi pour la sécurité des patients, Selon une étude d'un collectif de chercheurs

Les modèles d'IA hallucinent, et les médecins seraient d'accord avec cela : un défi pour la sécurité des patients,

Selon une étude d'un collectif de chercheurs