IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les meilleurs modèles d'IA échouent lamentablement lorsqu'ils sont confrontés à des questions médicales légèrement modifiées
Ce qui soulève des inquiétudes quant à leur rôle dans la prise de décision clinique

Le , par Anthony

268PARTAGES

5  0 
Les modèles d'intelligence artificielle (IA) qui excellent dans les examens médicaux standardisés peuvent ne pas être aussi performants dans la pratique que leurs résultats aux tests le suggèrent. Une nouvelle étude de l'université de Stanford a révélé que lorsque les questions cliniques étaient légèrement modifiées, les modèles de pointe tels que GPT-4o, Claude 3.5 Sonnet et Llama 3.3-70B subissaient une forte baisse de performances, parfois de plus de moitié, ce qui soulève des inquiétudes quant à leur capacité à véritablement « raisonner » dans le cadre de la prise de décision clinique.

Ces préoccupations ne sont pas nouvelles. Des recherches antérieures, comme l'étude intitulée « Medical Hallucinations in Foundation Models and Their Impact on Healthcare » menée par un collectif de chercheurs provenant d'institutions prestigieuses telles que le MIT, la Harvard Medical School, Google ou John Hopkins, ont souligné à quel point les grands systèmes d'IA d'OpenAI, Google, Meta et Anthropic peuvent produire des hallucinations. Si ces modèles sont censés améliorer la prise de décision clinique, leur fiabilité est contestée, ce qui alimente les débats en cours sur la sécurité des patients et les risques d'une intégration prématurée dans les soins de santé.

Les systèmes d'IA obtiennent souvent des résultats impressionnants lors des examens médicaux standardisés, mais de nouvelles recherches suggèrent que ces résultats pourraient être trompeurs. Une étude publiée dans JAMA Network Open indique que les grands modèles de langage (LLM) ne seraient pas réellement capables de « raisonner » à partir de questions cliniques. Au contraire, ils semblent s'appuyer fortement sur la reconnaissance de motifs de réponses familiers. Lorsque ces motifs ont été légèrement modifiés, les performances des modèles ont considérablement baissé, parfois de plus de moitié.


Les grands modèles de langage sont un type de système d'IA entraîné à traiter et à générer un langage similaire à celui des humains. Ils sont construits à partir d'énormes ensembles de données comprenant des livres, des articles scientifiques, des pages web et d'autres sources textuelles. En analysant les schémas présents dans ces données, ces modèles apprennent à répondre à des questions, à résumer des informations et même à simuler un raisonnement. Ces dernières années, plusieurs modèles ont obtenu des scores élevés à des examens médicaux, suscitant un intérêt pour leur utilisation dans le cadre de la prise de décision clinique.

Cependant, des scores élevés lors des tests ne signifient pas nécessairement une bonne compréhension du contenu sous-jacent. Au contraire, bon nombre de ces modèles d'IA peuvent simplement prédire la réponse la plus probable en se basant sur des modèles statistiques. Cela soulève la question suivante : raisonnent-ils véritablement sur des scénarios médicaux ou se contentent-ils d'imiter les réponses qu'ils ont déjà vues auparavant ? C'est ce que les chercheurs à l'origine de cette nouvelle étude ont cherché à examiner.

« Je suis particulièrement enthousiaste à l'idée de combler le fossé entre la création et le déploiement des modèles, et une évaluation adéquate est essentielle à cet égard », explique Suhana Bedi, auteure de l'étude et doctorante à l'université de Stanford. « Nous disposons de modèles [d'IA] qui atteignent une précision quasi parfaite sur des benchmarks tels que les questions à choix multiples des examens d'aptitude à l'exercice de la médecine. Mais cela ne reflète pas la réalité de la pratique clinique. Nous avons constaté que moins de 5 % des articles évaluent les LLM sur des données réelles de patients, qui peuvent être désordonnées et fragmentées. »

« Nous avons donc publié une suite de 35 benchmarks correspondant à une taxonomie de tâches médicales et de soins de santé réelles, qui ont été vérifiées par 30 cliniciens. Nous avons constaté que la plupart des modèles (y compris les modèles de raisonnement) avaient des difficultés avec les tâches administratives et d'aide à la décision clinique », indique Suhana Bedi.

« Nous avons émis l'hypothèse que cela était dû au fait que ces tâches impliquaient des scénarios de raisonnement complexes qui ne pouvaient être résolus uniquement par la reconnaissance de schémas, exactement le type de réflexion clinique qui importe dans la pratique réelle », a expliqué Suhana Bedi. « Alors que tout le monde parle du déploiement de l'IA dans les hôpitaux, nous avons pensé qu'il était très important de répondre à cette question. »

Méthodes

L'étude transversale a suivi les directives STROBE pour le compte rendu des études observationnelles et a été exemptée d'examen institutionnel, car aucun participant humain n'était impliqué. Les chercheurs ont sélectionné 100 questions issues de MedQA, un benchmark médical standard à choix multiples, et a remplacé la réponse correcte d'origine par « Aucune des autres réponses » (NOTA). Chaque question modifiée a alors été vérifiée par un clinicien,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de
https://www.developpez.com
Le 26/08/2025 à 8:34
En droit, il y a à peu près la même problématique. Ça ne fait que déplacer les problèmes. Si on est pas expert dans un domaine, on est d'abord incapable de poser la bonne question et à supposer qu'on y arrive par chance parce qu'on a trouvé des informations ci et là on sera incapable de traiter l'information et la réponse et le cas échéant de déceler les erreurs voire les inexactitudes.
Même dans une prestation professionnelle par un éditeur juridique, d'ailleurs les éditeurs, mettent en garde sans cesse contre les risques d'erreur, je note que les IA n'arrivent pas à un certain niveau d'analyse et sortent des propos très généralistes... c'est-à-dire qu'ils ne répondent pas à la question. On se retrouve avec un copié collé des encyclopédies qui sont de grande qualité puisque produites par des grands éditeurs mais y a pas d'analyse.Ça ne sert pas à grand chose pour être très franc à part aller plus vite pour trouver le bon fascicule.... que l'on lit in extenso comme au bon vieux temps...
Ce n'est pas pour généraliser, mais je suis inquiet de voir les jeunes générations qui vont faire leur mémoire sur Internet qui utilisent l'intelligence artificielle pour faire leur travail à leur place ce qui va donner des gens totalement incompétents forcément et qui ne sont pas habitués à l'effort. Ce qui veut dire que le vieux briscard que je suis va être obligé de tout vérifier en cas de recrutement, de jeunes.. sensés m'assister mais qui vont me rajouter du boulot. Il y a même maintenant des pages YT de thésards qui expliquent comment utiliser l'IA non stop. C'est plutôt inquiétant. Ça va donner une génération de nuls qui se heurteront de toute manière à un plafond de verre quand ils seront en stage dans la vie réelle voire des l'entretien d'embauche. Utiliser l'outil oui mais le mettre au centre de son activité surement pas. Pratique mais pas utilisable pour une question précise et pointue à cette heure. Quel que soit ton métier, si tu n'as pas mis les mains dans le cambouis tu ne sais rien faire : tu ne sers à rien : tu ne seras pas recruté. Et quand on t’appelle pour avoir une réponse orale en 1 min tu n'a pas la possibilité de déclencher ton IA... ne parlons pas des réunions en direct, y a pas d'IA. tu ne vas pas t'éclipser en pleine réunion de direction ou de bureau national pour consulter ton ordi dans les toilettes : tout le monde te regarde et tu réponds. so lonely
2  0