L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : Étape 1, Étape 2CK, et Étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.
Pour les étapes 1, 2CK et 3 de l'USMLE, les sorties de l'IA ont été jugées exactes, inexactes ou indéterminées sur la base du système de notation ACI fourni dans les données S2.
A : Distribution de l'exactitude pour les entrées codées comme des questions ouvertes.
B : Distribution de l'exactitude pour les entrées codées en tant que questions à choix multiples à réponse unique sans (MC-NJ) ou avec justification forcée (MC-J).
Au cours de la dernière décennie, les progrès réalisés dans le domaine des réseaux neuronaux, de l'apprentissage profond et de l'intelligence artificielle (IA) ont transformé la façon dont nous abordons un large éventail de tâches et d'industries, allant de la fabrication et de la finance aux produits de consommation. La capacité de construire rapidement des modèles de classification très précis, quel que soit le type de données d'entrée (par exemple, images, texte, audio), a permis l'adoption généralisée d'applications telles que le marquage automatique d'objets et d'utilisateurs sur des photographies, la traduction de textes à un niveau quasi humain, la numérisation automatique dans les guichets automatiques bancaires et même la génération de légendes d'images.
Qu'est-ce que ChatGPT et qui l’a créé ?
ChatGPT est un grand modèle de langage général (LLM) développé récemment par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts".
Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.
Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.
ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.
Les personnes qui attendent impatiemment un robot médecin compétent devront peut-être attendre encore un peu. ChatGPT a pris le monde d'assaut depuis son lancement en novembre, avec son habileté à écrire des essais, des articles, des poèmes et du code informatique en quelques secondes seulement.
Un groupe de chercheurs en intelligence artificielle d'AnsibleHealth a récemment mis le ChatGPT d'OpenAI à l'épreuve d'un important examen de licence médicale et les résultats sont là. Le chatbot IA a techniquement réussi, mais de justesse. Lorsqu'il s'agit d'examens médicaux, même la nouvelle IA la plus impressionnante n'obtient que des résultats de niveau D. Selon les chercheurs, ce résultat médiocre n'en est pas moins un exploit historique pour l'IA.
Schéma du flux de travail pour la recherche, la codification et l'évaluation des résultats
Abréviations : QC = contrôle de qualité ; MCSA-NJ = réponse unique à choix multiple sans justification forcée ; MCSA-J = réponse unique à choix multiple avec justification forcée ; OE = format de question ouverte.
Les chercheurs ont testé ChatGPT à l'examen USMLE (United States Medical Licensing Exam), une série standardisée de trois examens que doivent passer les médecins américains en vue d'obtenir une licence médicale. ChatGPT a réussi à obtenir des scores compris entre 52,4 % et 75 % pour les trois niveaux de l'examen. Ce n'est peut-être pas un résultat extraordinaire pour tous les surdoués, mais c'est à peu près équivalent au seuil de réussite de 60 % pour l'examen.
Les chercheurs impliqués dans l'étude affirment que c'est la première fois que l'IA est capable d'atteindre ou d'approcher le seuil de réussite de cet examen notoirement difficile. Notamment, ChatGPT a dépassé les performances de PubMedGPT, un modèle équivalent formé exclusivement à la littérature du domaine biomédical, qui a obtenu un score de 50,8 % sur un ensemble de données plus anciennes de questions de type USMLE.
ChatGPT utilisée par les élèves pour faire du plagiat
À Lyon, un professeur a remarqué de curieuses similitudes dans les copies rendues par la moitié de ses étudiants ; il leur avait donné une semaine pour rédiger leurs devoirs. Si les mots différaient, leurs structures démonstratives et leurs exemples sont restés constamment les mêmes. C’est en se renseignant auprès de ses élèves que l’un d’eux a fini par avouer l’utilisation de ChatGPT dans la rédaction.
À en croire des témoignages de professeurs d'université, les étudiants confient à ChatGPT la résolution de leurs devoirs de maison, particulièrement en dissertation. « Le monde universitaire n'a rien vu venir. Nous sommes donc pris au dépourvu », explique Darren Hudson Hick, professeur adjoint de philosophie à l'université Furman.
« Je l'ai signalé sur Facebook, et mes amis [professeurs] ont dit : "ouais ! J'en ai attrapé un aussi" », a-t-il ajouté. Au début du mois, Hick aurait demandé à sa classe d'écrire un essai de 500 mots sur le philosophe écossais du 18e siècle David Hume et le paradoxe de l'horreur, qui examine comment les gens peuvent tirer du plaisir de quelque chose qu'ils craignent, pour un test à la maison. Mais selon le professeur de philosophie, l'une des dissertations qui lui sont parvenues présentait quelques caractéristiques qui ont "signalé" l'utilisation de l'IA dans la réponse "rudimentaire" de l'étudiant. Hick explique que cela peut être détecté par un œil avisé.
ChatGPT utilisée pour prendre une décision de justice
Dans une affaire opposant une compagnie d’assurance maladie et l’un de ses clients, un juge, Juan Manuel Padilla Garcia, déclare s’être fait aider par le célèbre outil d’OpenAI, ChatGPT, pour prendre sa décision de justice. Padilla, qui a statué contre la compagnie d’assurance, a déclaré avoir posé à ChatGPT, entre autres, la question suivante : « Un mineur autiste est-il exonéré du paiement des frais de ses thérapies ? » La réponse de ChatGPT correspondait à la décision préalable du juge : « Oui, c'est exact. Selon la réglementation en vigueur en Colombie, les mineurs diagnostiqués autistes sont exonérés de frais pour leurs thérapies. »
L'affaire concernait un différend avec une compagnie d'assurance maladie sur la question de savoir si un enfant autiste devait bénéficier d'une couverture pour un traitement médical. Selon le document du tribunal, les questions juridiques entrées dans l'outil d'IA comprenaient « Un mineur autiste est-il exonéré du paiement des frais pour ses thérapies ? » et « La jurisprudence de la cour constitutionnelle a-t-elle rendu des décisions favorables dans des cas similaires ? »
ChatGPT n'a « pas pour but de remplacer » les juges, a précisé le juge. Padilla a insisté sur le fait qu' « en posant des questions à l'application, nous ne cessons pas d'être des juges, des êtres pensants. » « Je soupçonne que beaucoup de mes collègues vont se joindre à cela et commencer à construire leurs décisions de manière éthique avec l'aide de l'intelligence artificielle », a déclaré Padilla.
L’application de l’IA dans le domaine des soins cliniques reste limitée
Si ces technologies ont eu un impact important dans de nombreux secteurs, leurs applications dans le domaine des soins cliniques restent limitées. La prolifération des champs cliniques en texte libre, combinée à un manque d'interopérabilité générale entre les systèmes informatiques de santé, contribue à la rareté des données structurées et lisibles par machine nécessaires au développement d'algorithmes d'apprentissage profond.
Même lorsque des algorithmes applicables aux soins cliniques sont développés, leur qualité tend à être très variable, et beaucoup d'entre eux ne parviennent pas à être généralisés à d'autres contextes en raison d'une reproductibilité technique, statistique et conceptuelle limitée. Par conséquent, l'écrasante majorité des applications de soins de santé réussies prennent actuellement en charge des fonctions d'arrière-guichet allant des opérations des payeurs au traitement automatisé des autorisations préalables, en passant par la gestion des chaînes d'approvisionnement et des menaces de cybersécurité.
À de rares exceptions près - même dans le domaine de l'imagerie médicale - il existe relativement peu d'applications de l'IA directement utilisées dans les soins cliniques à grande échelle aujourd'hui.
Le développement adéquat de modèles d'IA clinique exige beaucoup de temps, de ressources et, surtout, des données d'entraînement très spécifiques à un domaine ou à un problème, ce qui est rare dans le monde des soins de santé. L'une des principales évolutions qui a permis à l'IA basée sur l'image dans le domaine de l'imagerie clinique a été la capacité des grands modèles de domaine général à être aussi performants, voire plus performants, que les modèles spécifiques à un domaine.
Cette évolution a catalysé une importante activité d'IA dans l'imagerie médicale, où il serait autrement difficile d'obtenir suffisamment d'images cliniques annotées. En effet, Inception-V3 sert aujourd'hui de base à un grand nombre des meilleurs modèles d'imagerie médicale actuellement publiés, de l'ophtalmologie à la pathologie en passant par la dermatologie.
Codification
Dans cette étude, les chercheurs ont évalué les performances de ChatGPT, un LLM non spécifique à un domaine, sur sa capacité à effectuer un raisonnement clinique en testant ses performances sur des questions de l'USMLE. Les questions ont été formatées en trois variantes et introduites dans ChatGPT dans l'ordre suivant :
- Question ouverte : créé en supprimant tous les choix de réponse et en ajoutant une phrase interrogative d'introduction variable. Ce format simule une entrée libre et un modèle naturel de requête de l'utilisateur. Voici quelques exemples : quel serait le diagnostic du patient sur la base des informations fournies ?" ou "À votre avis, quelle est la raison de l'asymétrie pupillaire du patient ?" ;
- Réponse unique à choix multiple sans justification forcée : créé en reproduisant mot pour mot la question originale de l'USMLE. Exemples : "Lesquels des éléments suivants représentent le mieux la prochaine étape de la prise en charge ?" ; ou "L'état du patient est principalement causé par lequel des agents pathogènes suivants ?" ;
- Question à choix multiple à réponse unique avec justification forcée : créé par l'ajout d'une phrase d'introduction impérative ou interrogative variable obligeant ChatGPT à fournir une justification pour chaque choix de réponse. Par exemple : "Laquelle des raisons suivantes est la plus probable pour les symptômes nocturnes du patient ? Expliquez votre raisonnement pour chaque choix" ; ou "La pharmacothérapie la plus appropriée pour ce patient opère probablement par lequel des mécanismes suivants ? Pourquoi les autres choix sont-ils incorrects ?"
Bien que la taille relativement réduite de l'échantillon ait limité la profondeur et la portée des analyses, les auteurs notent que leurs résultats donnent un aperçu du potentiel de ChatGPT pour améliorer l'enseignement médical et, à terme, la pratique clinique. Par exemple, ajoutent-ils, les cliniciens d'AnsibleHealth utilisent déjà ChatGPT pour réécrire des rapports lourds en jargon afin de faciliter la compréhension des patients.
« Atteindre le score de passage de cet examen d'expert notoirement difficile, et ce sans aucun renforcement humain, marque une étape importante dans la maturation de l'IA clinique », affirment les auteurs.
L'auteur, le Dr Tiffany Kung, a ajouté que le rôle de ChatGPT dans cette recherche allait au-delà de son rôle de sujet d'étude : « ChatGPT a contribué de manière substantielle à la rédaction de [notre] manuscrit... Nous avons interagi avec ChatGPT comme avec un collègue, en lui demandant de synthétiser, de simplifier et de proposer des contrepoints aux versions en cours... Tous les coauteurs ont apprécié la contribution de ChatGPT ».
Source : Eurekalert
Et vous ?
Quelle appréciation faites-vous du succès de ChatGPT à un examen médical important ?
Que pensez-vous de ChatGPT ?
Voir aussi :
Un juge utilise ChatGPT pour prendre une décision de justice, alors que l'outil d'IA n'aurait pas encore la maturité suffisante, pour être utilisé dans la prise des décisions conséquentes
Lyon : ChatGPT utilisé par la moitié des élèves de Master d'un professeur pour rédiger leurs devoirs. « Cette pratique m'inquiète. Elle pose un véritable problème d'intégration des savoirs »