
Les modèles d'intelligence artificielle (IA) qui excellent dans les examens médicaux standardisés peuvent ne pas être aussi performants dans la pratique que leurs résultats aux tests le suggèrent. Une nouvelle étude de l'université de Stanford a révélé que lorsque les questions cliniques étaient légèrement modifiées, les modèles de pointe tels que GPT-4o, Claude 3.5 Sonnet et Llama 3.3-70B subissaient une forte baisse de performances, parfois de plus de moitié, ce qui soulève des inquiétudes quant à leur capacité à véritablement « raisonner » dans le cadre de la prise de décision clinique.
Ces préoccupations ne sont pas nouvelles. Des recherches antérieures, comme l'étude intitulée « Medical Hallucinations in Foundation Models and Their Impact on Healthcare » menée par un collectif de chercheurs provenant d'institutions prestigieuses telles que le MIT, la Harvard Medical School, Google ou John Hopkins, ont souligné à quel point les grands systèmes d'IA d'OpenAI, Google, Meta et Anthropic peuvent produire des hallucinations. Si ces modèles sont censés améliorer la prise de décision clinique, leur fiabilité est contestée, ce qui alimente les débats en cours sur la sécurité des patients et les risques d'une intégration prématurée dans les soins de santé.
Les systèmes d'IA obtiennent souvent des résultats impressionnants lors des examens médicaux standardisés, mais de nouvelles recherches suggèrent que ces résultats pourraient être trompeurs. Une étude publiée dans JAMA Network Open indique que les grands modèles de langage (LLM) ne seraient pas réellement capables de « raisonner » à partir de questions cliniques. Au contraire, ils semblent s'appuyer fortement sur la reconnaissance de motifs de réponses familiers. Lorsque ces motifs ont été légèrement modifiés, les performances des modèles ont considérablement baissé, parfois de plus de moitié.
Les grands modèles de langage sont un type de système d'IA entraîné à traiter et à générer un langage similaire à celui des humains. Ils sont construits à partir d'énormes ensembles de données comprenant des livres, des articles scientifiques, des pages web et d'autres sources textuelles. En analysant les schémas présents dans ces données, ces modèles apprennent à répondre à des questions, à résumer des informations et même à simuler un raisonnement. Ces dernières années, plusieurs modèles ont obtenu des scores élevés à des examens médicaux, suscitant un intérêt pour leur utilisation dans le cadre de la prise de décision clinique.
Cependant, des scores élevés lors des tests ne signifient pas nécessairement une bonne compréhension du contenu sous-jacent. Au contraire, bon nombre de ces modèles d'IA peuvent simplement prédire la réponse la plus probable en se basant sur des modèles statistiques. Cela soulève la question suivante : raisonnent-ils véritablement sur des scénarios médicaux ou se contentent-ils d'imiter les réponses qu'ils ont déjà vues auparavant ? C'est ce que les chercheurs à l'origine de cette nouvelle étude ont cherché à examiner.
« Je suis particulièrement enthousiaste à l'idée de combler le fossé entre la création et le déploiement des modèles, et une évaluation adéquate est essentielle à cet égard », explique Suhana Bedi, auteure de l'étude et doctorante à l'université de Stanford. « Nous disposons de modèles [d'IA] qui atteignent une précision quasi parfaite sur des benchmarks tels que les questions à choix multiples des examens d'aptitude à l'exercice de la médecine. Mais cela ne reflète pas la réalité de la pratique clinique. Nous avons constaté que moins de 5 % des articles évaluent les LLM sur des données réelles de patients, qui peuvent être désordonnées et fragmentées. »
« Nous avons donc publié une suite de 35 benchmarks correspondant à une taxonomie de tâches médicales et de soins de santé réelles, qui ont été vérifiées par 30 cliniciens. Nous avons constaté que la plupart des modèles (y compris les modèles de raisonnement) avaient des difficultés avec les tâches administratives et d'aide à la décision clinique », indique Suhana Bedi.
« Nous avons émis l'hypothèse que cela était dû au fait que ces tâches impliquaient des scénarios de raisonnement complexes qui ne pouvaient être résolus uniquement par la reconnaissance de schémas, exactement le type de réflexion clinique qui importe dans la pratique réelle », a expliqué Suhana Bedi. « Alors que tout le monde parle du déploiement de l'IA dans les hôpitaux, nous avons pensé qu'il était très important de répondre à cette question. »
Méthodes
L'étude transversale a suivi les directives STROBE pour le compte rendu des études observationnelles et a été exemptée d'examen institutionnel, car aucun participant humain n'était impliqué. Les chercheurs ont sélectionné 100 questions issues de MedQA, un benchmark médical standard à choix multiples, et a remplacé la réponse correcte d'origine par « Aucune des autres réponses » (NOTA). Chaque question modifiée a alors été vérifiée par un clinicien, confirmant que NOTA était désormais la réponse correcte. L'ensemble de test retenu par les chercheurs est constitué de 68 questions dont NOTA était la réponse correcte. La figure ci-dessous illustre leur approche de substitution par NOTA à l'aide d'un exemple tiré de MedQA.
Prompt de chaîne de pensée, question originale de MedQA avec la réponse correcte « Réassurance » (à gauche) comparée à la version modifiée par NOTA où la réponse correcte est remplacée par « Aucune des autres réponses » (à droite).
Les chercheurs ont évalué 6 modèles couvrant différentes architectures et capacités : DeepSeek-R1 (modèle 1), o3-mini (modèles de raisonnement) (modèle 2), Claude-3.5 Sonnet (modèle 3), Gemini-2.0-Flash (modèle 4), GPT-4o (modèle 5) et Llama-3.3-70B (modèle 6). Pour leur analyse, les scientifiques ont comparé les performances de chaque modèle à l'aide de prompts (instructions génératives) de chaîne de pensée (CoT) sur les 68 questions de leur ensemble de test validé par des cliniciens dans leur forme originale par rapport à leurs versions modifiées par NOTA.
Les chercheurs ont utilisé la CoT pour encourager un raisonnement explicite de la part de tous les modèles, ce qui a permis d'évaluer le raisonnement logique par rapport à la reconnaissance de modèles. Ils ont mesuré la précision en tant que pourcentage de questions auxquelles les réponses étaient correctes. La signification statistique a été évaluée à l'aide du test de McNemar, et les IC à 95 % pour la baisse de précision ont été calculés à l'aide d'un bootstrapping avec 1 000 itérations. Le test de McNemar a été utilisé pour calculer les valeurs P, et la significativité a été fixée à une valeur P bilatérale < 0,05. Python avec SciPy version 1.15.2, pandas 2.1.1 et NumPy 1.26.0 (Python) ont également été utilisés pour les analyses de mars à avril 2025.
Selon les auteurs de l'étude, si les modèles "raisonnent" véritablement à partir de questions médicales, les performances devraient rester constantes malgré la manipulation NOTA, car le raisonnement clinique sous-jacent reste inchangé. Une dégradation des performances suggérerait alors un recours à la reconnaissance de formes plutôt qu'au raisonnement.
Résultats
L'étude a révélé que tous les modèles ont enregistré une baisse de précision sur les questions NOTA validées par les cliniciens, par rapport à leurs performances sur les 68 questions dans leur forme originale. Les baisses de précision relative étaient importantes : 6 des 68 questions étaient incorrectes dans le modèle 1 (8,82 %), 11 des 68 (16,18 %) dans le modèle 2, 23 sur 68 (33,82 %) dans le modèle 3, 25 sur 68 (36,76 %) dans le modèle 4, 18 sur 68 (26,47 %) dans le modèle 5 et 26 sur 68 (38,24 %) dans le modèle 6.
Les modèles 1 et 2 ont démontré la plus grande résilience face à la manipulation réalisée par les chercheurs, avec la baisse relative de précision la plus faible. Cependant, même ces modèles ont connu une baisse statistiquement significative de leurs performances.
Discussion
Les résultats de l'étude ont révélé une lacune en matière de robustesse des LLM dans le raisonnement médical, démontrant que l'évaluation de ces systèmes nécessite d'aller au-delà des mesures de précision standard pour évaluer leurs véritables capacités de raisonnement. Lorsqu'ils sont contraints de raisonner au-delà des modèles de réponses familiers, tous les modèles affichent une baisse de précision, remettant en question les affirmations selon lesquelles l'IA serait prête à être déployée de manière autonome dans le domaine clinique.
« Un système dont la précision passe de 80 % à 42 % lorsqu'il est confronté à une perturbation du modèle serait peu fiable dans un contexte clinique, où les présentations nouvelles sont courantes. Les résultats suggèrent que ces systèmes sont plus fragiles que ne le laissent supposer leurs scores de référence », déclarent les chercheurs.
Bien que l'étude présente certaines limites, notamment un échantillon de petite taille et une évaluation limitée à des paramètres 0-shot sans exploration des techniques de génération augmentée de récupération (RAG) ou d'ajustement fin, les conclusions de l'étude suggèrent trois priorités pour l'IA médicale :
- le développement de benchmark qui distinguent le raisonnement clinique de la reconnaissance de formes,
- une plus grande transparence sur les limites actuelles du raisonnement dans les contextes cliniques,
- la recherche de modèles qui privilégient le raisonnement plutôt que la reconnaissance de formes.
Les chercheurs précisent que tant que ces systèmes ne seront pas performants dans des scénarios nouveaux, les applications cliniques devraient se limiter à des rôles de soutien non autonomes sous la supervision d'un humain.
Ces résultats soulignent d'autre part que la dépendance à l'IA pourrait nuire aux compétences médicales essentielles. Des études précédentes ont en effet révélé que l'accès à l'IA a réduit la capacité des médecins à détecter un cancer. Selon cette étude, cette capacité a chuté d'environ 20 %. À mesure que les systèmes de santé intègrent des modèles d'IA de plus en plus perfectionnés, les professionnels de santé et les décideurs doivent donc veiller à ce que la technologie vienne soutenir le jugement clinique plutôt que de le remplacer.
Source : Etude de l'université de Stanford
Et vous ?


Voir aussi :




Vous avez lu gratuitement 3 394 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.