Les modèles d'intelligence artificielle (IA) qui excellent dans les examens médicaux standardisés peuvent ne pas être aussi performants dans la pratique que leurs résultats aux tests le suggèrent. Une nouvelle étude de l'université de Stanford a révélé que lorsque les questions cliniques étaient légèrement modifiées, les modèles de pointe tels que GPT-4o, Claude 3.5 Sonnet et Llama 3.3-70B subissaient une forte baisse de performances, parfois de plus de moitié, ce qui soulève des inquiétudes quant à leur capacité à véritablement « raisonner » dans le cadre de la prise de décision clinique.Ces préoccupations ne sont pas nouvelles. Des recherches antérieures, comme l'étude intitulée « Medical Hallucinations in Foundation Models and Their Impact on Healthcare » menée par un collectif de chercheurs provenant d'institutions prestigieuses telles que le MIT, la Harvard Medical School, Google ou John Hopkins, ont souligné à quel point les grands systèmes d'IA d'OpenAI, Google, Meta et Anthropic peuvent produire des hallucinations. Si ces modèles sont censés améliorer la prise de décision clinique, leur fiabilité est contestée, ce qui alimente les débats en cours sur la sécurité des patients et les risques d'une intégration prématurée dans les soins de santé.
Les systèmes d'IA obtiennent souvent des résultats impressionnants lors des examens médicaux standardisés, mais de nouvelles recherches suggèrent que ces résultats pourraient être trompeurs. Une étude publiée dans JAMA Network Open indique que les grands modèles de langage (LLM) ne seraient pas réellement capables de « raisonner » à partir de questions cliniques. Au contraire, ils semblent s'appuyer fortement sur la reconnaissance de motifs de réponses familiers. Lorsque ces motifs ont été légèrement modifiés, les performances des modèles ont considérablement baissé, parfois de plus de moitié.
Les grands modèles de langage sont un type de système d'IA entraîné à traiter et à générer un langage similaire à celui des humains. Ils sont construits à partir d'énormes ensembles de données comprenant des livres, des articles scientifiques, des pages web et d'autres sources textuelles. En analysant les schémas présents dans ces données, ces modèles apprennent à répondre à des questions, à résumer des informations et même à simuler un raisonnement. Ces dernières années, plusieurs modèles ont obtenu des scores élevés à des examens médicaux, suscitant un intérêt pour leur utilisation dans le cadre de la prise de décision clinique.
Cependant, des scores élevés lors des tests ne signifient pas nécessairement une bonne compréhension du contenu sous-jacent. Au contraire, bon nombre de ces modèles d'IA peuvent simplement prédire la réponse la plus probable en se basant sur des modèles statistiques. Cela soulève la question suivante : raisonnent-ils véritablement sur des scénarios médicaux ou se contentent-ils d'imiter les réponses qu'ils ont déjà vues auparavant ? C'est ce que les chercheurs à l'origine de cette nouvelle étude ont cherché à examiner.
« Je suis particulièrement enthousiaste à l'idée de combler le fossé entre la création et le déploiement des modèles, et une évaluation adéquate est essentielle à cet égard », explique Suhana Bedi, auteure de l'étude et doctorante à l'université de Stanford. « Nous disposons de modèles [d'IA] qui atteignent une précision quasi parfaite sur des benchmarks tels que les questions à choix multiples des examens d'aptitude à l'exercice de la médecine. Mais cela ne reflète pas la réalité de la pratique clinique. Nous avons constaté que moins de 5 % des articles évaluent les LLM sur des données réelles de patients, qui peuvent être désordonnées et fragmentées. »
« Nous avons donc publié une suite de 35 benchmarks correspondant à une taxonomie de tâches médicales et de soins de santé réelles, qui ont été vérifiées par 30 cliniciens. Nous avons constaté que la plupart des modèles (y compris les modèles de raisonnement) avaient des difficultés avec les tâches administratives et d'aide à la décision clinique », indique Suhana Bedi.
« Nous avons émis l'hypothèse que cela était dû au fait que ces tâches impliquaient des scénarios de raisonnement complexes qui ne pouvaient être résolus uniquement par la reconnaissance de schémas, exactement le type de réflexion clinique qui importe dans la pratique réelle », a expliqué Suhana Bedi. « Alors que tout le monde parle du déploiement de l'IA dans les hôpitaux, nous avons pensé qu'il était très important de répondre à cette question. »
Méthodes
L'étude transversale a suivi les directives STROBE pour le compte rendu des études observationnelles et a été exemptée d'examen institutionnel, car aucun participant humain n'était impliqué. Les chercheurs ont sélectionné 100 questions issues de MedQA, un benchmark médical standard à choix multiples, et a remplacé la réponse correcte d'origine par « Aucune des autres réponses » (NOTA). Chaque question modifiée a alors été vérifiée par un clinicien,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
ne parlons pas des réunions en direct, y a pas d'IA.