Une étude intitulée Medical Hallucinations in Foundation Models and Their Impact on Healthcare, disponible sur GitHub, met en avant la nécessité de développer des stratégies pour atténuer les risques liés à l'utilisation de l'intelligence artificielle (IA) dans le domaine de la santé. Les auteurs soulignent que les modèles de base, conçus par des entreprises telles qu'Anthropic, Google, Meta et OpenAI, présentent des opportunités prometteuses, notamment pour soutenir la prise de décision clinique et améliorer la qualité des soins. Toutefois, l’intégration des modèles d’intelligence artificielle dans le domaine médical soulève un débat complexe, situé à l’intersection des avancées technologiques et des risques liés à leur fiabilité.Une équipe de 25 experts, issus d'institutions médicales et technologiques prestigieuses comme le MIT, la Harvard Medical School, l'université de Washington, Carnegie Mellon, l'hôpital de l'université nationale de Séoul, Google, Columbia et Johns Hopkins, a examiné les erreurs produites par ces modèles de base. Leur objectif principal est de formuler des recommandations visant à garantir une intégration sécurisée et efficace de l'IA dans les systèmes de soins de santé.
Les modèles capables de traiter et de générer des données multimodales ont révolutionné le rôle de l’IA dans le domaine médical. Toutefois, leur fiabilité est compromise par le phénomène d’hallucination, où des informations erronées ou inventées peuvent influencer les décisions cliniques et compromettre la sécurité des patients. Les chercheurs définissent l’hallucination médicale comme toute situation où un modèle produit un contenu médical trompeur. Leurs travaux incluent plusieurs contributions majeures :
- une taxonomie pour mieux comprendre et traiter les hallucinations médicales ;
- l’étalonnage des modèles à l’aide d’un ensemble de données sur les hallucinations médicales et de réponses annotées par des médecins à des cas réels, offrant un aperçu concret de leur impact clinique ;
- une enquête multinationale auprès de cliniciens sur leurs expériences avec les hallucinations médicales.
Les résultats indiquent que des techniques d’inférence, telles que la chaîne de pensée (CoT) et la génération augmentée de recherche, permettent de réduire de manière significative les taux d’hallucinations. Cependant, malgré ces progrès, des erreurs persistantes à des niveaux préoccupants subsistent. Ces constats soulignent l’impératif éthique et pratique de développer des stratégies solides de détection et d’atténuation, jetant ainsi les bases de politiques réglementaires qui privilégient la sécurité des patients et préservent l’intégrité clinique, notamment à mesure que l’IA s’intègre davantage dans le domaine des soins de santé.
Les retours des professionnels de santé mettent également en avant l’urgence de progresser non seulement sur le plan technique, mais aussi en établissant des directives éthiques et réglementaires claires pour assurer une utilisation sûre et responsable de ces technologies.
Aperçu des hallucinations médicales générées par les LLM de pointe
- Taux d'hallucinations évalués par des experts médicaux et analyse des risques potentiels sur trois tâches de raisonnement médical utilisant les dossiers du NEJM ;
- Exemples représentatifs d'hallucinations médicales tirés des travaux de Chen et al. (2024) et Vishwanath et al. (2024) ;
- Répartition géographique des incidents d'hallucinations médicales rapportés par les cliniciens, fournissant une perspective mondiale sur le problème.
Des chercheurs de l’Université d’Oxford ont développé une nouvelle méthode pour détecter les hallucinations dans les grands modèles de langage (LLM) comme ChatGPT et Gemini. En s’appuyant sur des estimateurs d’incertitude basés sur l’entropie, leur approche permet d’identifier les réponses arbitraires et incorrectes, ou « confabulations », sans nécessiter de données préalables spécifiques à une tâche donnée. Cette méthode améliore la fiabilité des LLM dans diverses applications, favorisant ainsi des interactions basées sur l’IA plus sûres et plus précises.
Dans leur étude, les chercheurs du département d’informatique de l’Université d’Oxford ont conçu des méthodes statistiques innovantes, proposant des estimateurs d’incertitude basés sur l’entropie pour les LLM afin de détecter un sous-ensemble d’hallucinations – les confabulations – qui correspondent à des générations erronées et arbitraires. Leur approche prend en compte le fait qu’une idée peut être exprimée de multiples façons en calculant l’incertitude au niveau du sens plutôt qu’au niveau de séquences de mots spécifiques.
Selon les auteurs, cette méthode est applicable à tous les ensembles de données et à toutes les tâches sans nécessiter de connaissances préalables spécifiques, ne requiert pas de données dédiées à une tâche particulière, et s’adapte de manière robuste à de nouvelles tâches inédites. En identifiant les situations où une invite est susceptible de générer une confabulation, cette méthode aide les utilisateurs à mieux évaluer quand exercer une vigilance accrue avec les LLM. Elle ouvre également de nouvelles perspectives d’utilisation des LLM, qui étaient jusqu’alors limitées par leur manque de fiabilité.
Comprendre les hallucinations des modèles de langage : entre erreurs et surréalisme
L'hallucination de l'IA est un phénomène dans lequel un grand modèle de langage (LLM) - souvent un chatbot d'IA générative ou un outil de vision par ordinateur - perçoit des modèles ou des objets qui sont inexistants ou imperceptibles pour les observateurs humains, créant des résultats qui sont absurdes ou tout à fait inexacts.
En règle générale, lorsqu'un utilisateur sollicite un outil d'IA générative, il souhaite obtenir un résultat qui réponde de manière appropriée à l'invite (c'est-à-dire une réponse correcte à une question). Cependant, il arrive que les algorithmes d'IA produisent des résultats qui ne sont pas basés sur des données d'apprentissage, qui sont mal décodés par le transformateur ou qui ne suivent aucun modèle identifiable. En d'autres termes, la réponse est « hallucinée ».
Ce terme peut sembler paradoxal, étant donné que les hallucinations sont généralement associées à des cerveaux humains ou animaux, et non à des machines. Mais d'un point de vue métaphorique, l'hallucination décrit précisément ces résultats, en particulier dans le cas de la reconnaissance d'images et de formes (où les résultats peuvent avoir une apparence véritablement surréaliste). Les hallucinations de l'IA sont similaires à la façon dont les humains voient parfois des figures dans les nuages ou des visages sur la lune. Dans le cas de l'IA, ces interprétations erronées sont dues à divers facteurs, notamment le surajustement, le biais ou l'inexactitude des données d'apprentissage et la grande complexité du modèle.
Il peut s'avérer difficile de prévenir les problèmes liés aux technologies génératives à source ouverte. Voici quelques exemples notables d'hallucinations de l'IA :
- Le chatbot Bard de Google a affirmé à tort que le télescope spatial James Webb avait capturé les premières images au monde d'une planète située en dehors de notre système solaire ;
- Sydney, l'IA de chat de Microsoft, a admis être tombée amoureuse des utilisateurs et avoir espionné...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.