ChatGPT a réussi de justesse à un examen médical important, un exploit historique pour l'IA,

Mais elle serait encore mauvaise en mathématiques

Le 15 février 2023 à 07:52, par Bruno

189PARTAGES

Selon les chercheurs, ChatGPT est la première IA à obtenir un score de réussite à l'examen de licence médicale, mais elle serait toujours mauvaise en mathématiques. Selon une étude publiée le 9 février 2023 dans la revue PLOS Digital Health par Tiffany Kung, Victor Tseng et leurs collègues d'AnsibleHealth, ChatGPT peut obtenir un score égal ou proche du seuil de réussite d'environ 60 % pour l'examen de licence médicale des États-Unis (USMLE), avec des réponses qui ont un sens cohérent et interne et qui contiennent des idées fréquentes.

L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.

« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : Étape 1, Étape 2CK, et Étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.

Pour les étapes 1, 2CK et 3 de l'USMLE, les sorties de l'IA ont été jugées exactes, inexactes ou indéterminées sur la base du système de notation ACI fourni dans les données S2.
A : Distribution de l'exactitude pour les entrées codées comme des questions ouvertes.
B : Distribution de l'exactitude pour les entrées codées en tant que questions à choix multiples à réponse unique sans (MC-NJ) ou avec justification forcée (MC-J).

Au cours de la dernière décennie, les progrès réalisés dans le domaine des réseaux neuronaux, de l'apprentissage profond et de l'intelligence artificielle (IA) ont transformé la façon dont nous abordons un large éventail de tâches et d'industries, allant de la fabrication et de la finance aux produits de consommation. La capacité de construire rapidement des modèles de classification très précis, quel que soit le type de données d'entrée (par exemple, images, texte, audio), a permis l'adoption généralisée d'applications telles que le marquage automatique d'objets et d'utilisateurs sur des photographies, la traduction de textes à un niveau quasi humain, la numérisation automatique dans les guichets automatiques bancaires et même la génération de légendes d'images.

Qu'est-ce que ChatGPT et qui l’a créé ?

ChatGPT est un grand modèle de langage général (LLM) développé récemment par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts".

Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.

Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.

ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.

Les personnes qui attendent impatiemment un robot médecin compétent devront peut-être attendre encore un peu. ChatGPT a pris le monde d'assaut depuis son lancement en novembre, avec son habileté à écrire des essais, des articles, des poèmes et du code informatique en quelques secondes seulement.

Un groupe de chercheurs en intelligence artificielle d'AnsibleHealth a récemment mis le ChatGPT d'OpenAI à l'épreuve d'un important examen de licence médicale et les résultats sont là. Le chatbot IA a techniquement réussi, mais de justesse. Lorsqu'il s'agit d'examens médicaux, même la nouvelle IA la plus impressionnante n'obtient que des résultats de niveau D. Selon les chercheurs, ce résultat médiocre n'en est pas moins un exploit historique pour l'IA.

Schéma du flux de travail pour la recherche, la codification et l'évaluation des résultats

Abréviations : QC = contrôle de qualité ; MCSA-NJ = réponse unique à choix multiple sans justification forcée ; MCSA-J = réponse unique à choix multiple avec justification forcée ; OE = format de question ouverte.

Les chercheurs ont testé ChatGPT à l'examen USMLE (United States Medical Licensing Exam), une série standardisée de trois examens que doivent passer les médecins américains en vue d'obtenir une licence médicale. ChatGPT a réussi à obtenir des scores compris entre 52,4 % et 75 % pour les trois niveaux de l'examen. Ce n'est peut-être pas un résultat extraordinaire pour tous les surdoués, mais c'est à peu près équivalent au seuil de réussite de 60 % pour l'examen.

Les chercheurs impliqués dans l'étude affirment que c'est la première fois que l'IA est capable d'atteindre ou d'approcher le seuil de réussite de cet examen notoirement difficile. Notamment, ChatGPT a dépassé les performances de PubMedGPT, un modèle équivalent formé exclusivement à la littérature du domaine biomédical, qui a obtenu un score de 50,8 % sur un ensemble de données plus anciennes de questions de type USMLE.

ChatGPT utilisée par les élèves pour faire du plagiat

À Lyon, un professeur a remarqué de curieuses similitudes dans les copies rendues par la moitié de ses étudiants ; il leur avait donné une semaine pour rédiger leurs devoirs. Si les mots différaient, leurs structures démonstratives et leurs exemples sont restés constamment les mêmes. C’est en se renseignant auprès de ses élèves que l’un d’eux a fini par avouer l’utilisation de ChatGPT dans la rédaction.

À en croire des témoignages de professeurs d'université, les étudiants confient à ChatGPT la résolution de leurs devoirs de maison, particulièrement en dissertation. « Le monde universitaire n'a rien vu venir. Nous sommes donc pris au dépourvu », explique Darren Hudson Hick, professeur adjoint de philosophie à l'université Furman.

« Je l'ai signalé sur Facebook, et mes amis [professeurs] ont dit : "ouais ! J'en ai attrapé un aussi" », a-t-il ajouté. Au début du mois, Hick aurait demandé à sa classe d'écrire un essai de 500 mots sur le philosophe écossais du 18e siècle David Hume et le paradoxe de l'horreur, qui examine comment les gens peuvent tirer du plaisir de quelque chose qu'ils craignent, pour un test à la maison. Mais selon le professeur de philosophie, l'une des dissertations qui lui sont parvenues présentait quelques caractéristiques qui ont "signalé" l'utilisation de l'IA dans la réponse "rudimentaire" de l'étudiant. Hick explique que cela peut être détecté par un œil avisé.

ChatGPT utilisée pour prendre une décision de justice

Dans une affaire opposant une compagnie d’assurance maladie et l’un de ses clients, un juge, Juan Manuel Padilla Garcia, déclare s’être fait aider par le célèbre outil d’OpenAI, ChatGPT, pour prendre sa décision de justice. Padilla, qui a statué contre la compagnie d’assurance, a déclaré avoir posé à ChatGPT, entre autres, la question suivante : « Un mineur autiste est-il exonéré du paiement des frais de ses thérapies ? » La réponse de ChatGPT correspondait à la décision préalable du juge : « Oui, c'est exact. Selon la réglementation en vigueur en Colombie, les mineurs diagnostiqués autistes sont exonérés de frais pour leurs thérapies. »

L'affaire concernait un différend avec une compagnie d'assurance maladie sur la question de savoir si un enfant autiste devait bénéficier d'une couverture pour un traitement médical. Selon le document du tribunal, les questions juridiques entrées dans l'outil d'IA comprenaient « Un mineur autiste est-il exonéré du paiement des frais pour ses thérapies ? » et « La jurisprudence de la cour constitutionnelle a-t-elle rendu des décisions favorables dans des cas similaires ? »

ChatGPT n'a « pas pour but de remplacer » les juges, a précisé le juge. Padilla a insisté sur le fait qu' « en posant des questions à l'application, nous ne cessons pas d'être des juges, des êtres pensants. » « Je soupçonne que beaucoup de mes collègues vont se joindre à cela et commencer à construire leurs décisions de manière éthique avec l'aide de l'intelligence artificielle », a déclaré Padilla.

L’application de l’IA dans le domaine des soins cliniques reste limitée

Si ces technologies ont eu un impact important dans de nombreux secteurs, leurs applications dans le domaine des soins cliniques restent limitées. La prolifération des champs cliniques en texte libre, combinée à un manque d'interopérabilité générale entre les systèmes informatiques de santé, contribue à la rareté des données structurées et lisibles par machine nécessaires au développement d'algorithmes d'apprentissage profond.

Même lorsque des algorithmes applicables aux soins cliniques sont développés, leur qualité tend à être très variable, et beaucoup d'entre eux ne parviennent pas à être généralisés à d'autres contextes en raison d'une reproductibilité technique, statistique et conceptuelle limitée. Par conséquent, l'écrasante majorité des applications de soins de santé réussies prennent actuellement en charge des fonctions d'arrière-guichet allant des opérations des payeurs au traitement automatisé des autorisations préalables, en passant par la gestion des chaînes d'approvisionnement et des menaces de cybersécurité.

À de rares exceptions près - même dans le domaine de l'imagerie médicale - il existe relativement peu d'applications de l'IA directement utilisées dans les soins...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :