Une étude de Stanford a comparé les performances de ChatGPT, un système d’intelligence artificielle à grand modèle linguistique, avec celles des étudiants en médecine de première et deuxième année sur des questions ouvertes de raisonnement clinique. Les résultats ont montré que ChatGPT pouvait répondre mieux que les étudiants en médecine à ces questions difficiles, ce qui soulève des questions sur l’impact de l’IA sur l’enseignement médical et la pratique clinique. Les auteurs suggèrent qu’il faut repenser la façon dont on forme les médecins de demain à l’ère de l’IA.
Selon une nouvelle étude menée par des chercheurs de Stanford, les étudiants en médecine de première et de deuxième année peuvent obtenir de meilleurs résultats que les étudiants en médecine en répondant aux questions difficiles de l'examen de soins cliniques. Ces résultats mettent en évidence l'impact croissant de l'intelligence artificielle (IA) sur l'enseignement médical et la pratique clinique et suggèrent la nécessité d'une nouvelle approche pour enseigner aux médecins de demain.
ChatGPT est le plus connu des systèmes d'intelligence artificielle à grand modèle linguistique qui ont captivé le monde au cours des derniers mois. Ces systèmes sont formés sur l'ensemble du corpus de contenu Internet et fonctionnent comme des chatbots en ligne, permettant aux utilisateurs de saisir un texte et de recevoir rapidement en réponse un texte généré automatiquement et ressemblant à celui d'un humain.
Des études récentes ont montré que ChatGPT peut traiter avec succès des questions à choix multiples de l'examen d'aptitude médicale des États-Unis (USMLE), que les médecins doivent passer pour pouvoir pratiquer la médecine. Selon une étude publiée le 9 février 2023 dans la revue PLOS Digital Health par Tiffany Kung, Victor Tseng et leurs collègues d'AnsibleHealth, ChatGPT peut obtenir un score égal ou proche du seuil de réussite d'environ 60 % pour l'examen de licence médicale USMLE, avec des réponses qui ont un sens cohérent et interne et qui contiennent des idées fréquentes.
L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : étape 1, étape 2CK et étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.
L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons été très surpris de voir à quel point ChatGPT a réussi à répondre à ce type de questions de raisonnement médical en dépassant les scores des testeurs humains », déclare Eric Strong, hospitalier et professeur agrégé de clinique à la Stanford School of Medicine, l'un des auteurs de l'étude.
« Avec ce type de résultats, nous constatons que la nature de l'enseignement et du test du raisonnement médical par le biais d'un texte écrit est bouleversée par de nouveaux outils », déclare Alicia DiGiammarino, coautrice de l'étude et responsable de l'enseignement de la deuxième année de pratique de la médecine à la faculté de médecine. « ChatGPT et d'autres programmes similaires sont en train de changer la façon dont nous enseignons et, en fin de compte, dont nous pratiquons la médecine. »
L'IA est un étudiant qui réussit
La nouvelle étude a utilisé la dernière version de ChatGPT, appelée GPT-4, qui a été publiée en mars 2023. L'étude fait suite à une étude antérieure que Strong et DiGiammarino ont menée sur la version précédente, GPT-3.5, qui a été publiée par son fabricant basé à San Francisco, OpenAI, en novembre 2022.
Pour les deux études, les chercheurs de Stanford ont compilé 14 cas de raisonnement clinique. Les cas, dont les descriptions textuelles varient de plusieurs centaines de mots à un millier de mots, contiennent une myriade de détails étrangers, tels que des maladies chroniques et des médicaments sans rapport, tout comme les dossiers médicaux des patients dans la vie réelle. Pendant l'examen, les candidats doivent rédiger des réponses sous forme de paragraphes à une série de questions posées après chaque rapport de cas.
Analyser le texte et composer des réponses originales de cette manière contraste avec la simplicité relative des questions à choix multiples de l'USMLE. Ces questions se composent d'un court passage, d'une question et de cinq réponses possibles. Presque toutes les informations fournies sont pertinentes pour la bonne réponse.
« Il n'est pas vraiment surprenant que ChatGPT et les programmes de ce type obtiennent de bons résultats avec les questions à choix multiples », explique Strong. « Tout ce qui est dit aux candidats est un élément central de la question, et il s'agit donc essentiellement d'un rappel d'informations. Une question ouverte, à réponse libre, est beaucoup plus difficile à résoudre ».
Le ChatGPT avait cependant besoin d'une petite aide avant de répondre aux questions basées sur des cas concrets, à savoir une ingénierie rapide. Comme ChatGPT fait appel à l'ensemble d'Internet, il peut ne pas interpréter correctement les termes centrés sur les soins de santé utilisés dans le test. Par exemple, « liste de problèmes » fait référence aux problèmes médicaux passés et présents des patients, mais peut apparaître dans d'autres contextes non médicaux.
Après avoir modifié certaines questions en conséquence, les chercheurs de Stanford ont saisi les informations dans ChatGPT, enregistré les réponses du chatbot et les ont transmises à des évaluateurs expérimentés de la faculté. Les notes obtenues par le programme d'IA ont ensuite été comparées à celles d'étudiants en médecine de première et deuxième année qui avaient traité les mêmes cas.
Dans l'étude précédente, les réponses de GPT-3.5 étaient « à la limite de la réussite », explique Strong. Dans la nouvelle étude avec GPT-4, cependant, le chatbot a obtenu en moyenne 4,2 points de plus que les étudiants et a obtenu la note de passage dans 93 % des cas, contre 85 % pour les étudiants.
Les performances de ChatGPT n'ont cependant pas été parfaites. Un problème particulièrement préoccupant, qui s'est considérablement atténué avec GPT-4 par rapport à la version 3.5, est la confabulation, c'est-à-dire l'ajout de faux détails, comme le fait qu'un patient avait de la fièvre alors qu'il n'en avait pas dans une étude de cas particulière. Les « faux souvenirs » confabulatoires peuvent provenir d'une confusion, lorsque ChatGPT tire des informations de cas similaires.
Repenser l'enseignement médical
En ce qui concerne l'intégrité des tests et la conception des programmes, l'influence de ChatGPT se fait déjà sentir à l'école de médecine de Stanford. Au cours du dernier semestre, les administrateurs de l'école ont décidé de faire passer les examens d'un système à livre ouvert - c'est-à-dire avec un accès internet à ChatGPT - à un système à livre fermé. Les étudiants doivent désormais raisonner à partir de questions entièrement basées sur la mémoire. Si cette approche a ses mérites, le principal inconvénient, selon DiGiammarino, est que les examens n'évaluent plus la capacité des étudiants à recueillir des informations à partir de sources, une compétence cruciale dans le domaine des soins cliniques.
Conscients de ce problème, les enseignants et le personnel de la faculté de médecine ont commencé à se réunir au sein d'un groupe de travail sur l'intelligence artificielle. Ce groupe envisage de mettre à jour les programmes d'études en y intégrant des outils d'IA pour compléter l'apprentissage des étudiants, dans le but de préparer pédagogiquement les futurs cliniciens.
« Nous ne voulons pas de médecins qui ont été tellement dépendants de l'IA à l'école qu'ils n'ont pas appris à raisonner sur des cas par eux-mêmes », déclare DiGiammarino. « Mais j'ai davantage peur d'un monde où les médecins ne sont pas formés à l'utilisation efficace de l'IA et où celle-ci est omniprésente dans la pratique moderne. »
Source : Stanford University
Et vous ?
Quelles sont selon vous, les limites de ChatGPT pour répondre aux questions de raisonnement clinique ?
Quels peuvent être les avantages et les inconvénients de l’utilisation de l’IA comme outil d’enseignement ou d’assistance dans le domaine médical ?
Voir aussi :
ChatGPT a réussi de justesse à un examen médical important, un exploit historique pour l'IA, mais elle serait encore mauvaise en mathématiques
Certains médecins utilisent des chatbots d'IA comme ChatGPT pour les aider à annoncer de mauvaises nouvelles à leurs patients avec compassion, selon un rapport
ChatGPT surpasse les étudiants en médecine sur les questions de l'examen de soins cliniques
Ce qui soulève des questions sur l'impact de l'IA sur l'enseignement médical et la pratique clinique
ChatGPT surpasse les étudiants en médecine sur les questions de l'examen de soins cliniques
Ce qui soulève des questions sur l'impact de l'IA sur l'enseignement médical et la pratique clinique
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !