Selon les chercheurs, ChatGPT est la première IA à obtenir un score de réussite à l'examen de licence médicale, mais elle serait toujours mauvaise en mathématiques. Selon une étude publiée le 9 février 2023 dans la revue PLOS Digital Health par Tiffany Kung, Victor Tseng et leurs collègues d'AnsibleHealth, ChatGPT peut obtenir un score égal ou proche du seuil de réussite d'environ 60 % pour l'examen de licence médicale des États-Unis (USMLE), avec des réponses qui ont un sens cohérent et interne et qui contiennent des idées fréquentes.L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : Étape 1, Étape 2CK, et Étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.
Pour les étapes 1, 2CK et 3 de l'USMLE, les sorties de l'IA ont été jugées exactes, inexactes ou indéterminées sur la base du système de notation ACI fourni dans les données S2.
A : Distribution de l'exactitude pour les entrées codées comme des questions ouvertes.
B : Distribution de l'exactitude pour les entrées codées en tant que questions à choix multiples à réponse unique sans (MC-NJ) ou avec justification forcée (MC-J).
Au cours de la dernière décennie, les progrès réalisés dans le domaine des réseaux neuronaux, de l'apprentissage profond et de l'intelligence artificielle (IA) ont transformé la façon dont nous abordons un large éventail de tâches et d'industries, allant de la fabrication et de la finance aux produits de consommation. La capacité de construire rapidement des modèles de classification très précis, quel que soit le type de données d'entrée (par exemple, images, texte, audio), a permis l'adoption généralisée d'applications telles que le marquage automatique d'objets et d'utilisateurs sur des photographies, la traduction de textes à un niveau quasi humain, la numérisation automatique dans les guichets automatiques bancaires et même la génération de légendes d'images.
Qu'est-ce que ChatGPT et qui l’a créé ?
ChatGPT est un grand modèle de langage général (LLM) développé récemment par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts".
Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.
Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.
ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.
Les personnes qui attendent impatiemment un robot médecin compétent devront peut-être attendre encore un peu. ChatGPT a pris le monde d'assaut depuis son lancement en novembre, avec son habileté à écrire des essais, des articles, des poèmes et du code informatique en quelques secondes seulement.
Un groupe de chercheurs en intelligence artificielle d'AnsibleHealth a récemment mis le ChatGPT d'OpenAI à l'épreuve d'un important examen de licence médicale et les résultats sont là. Le chatbot IA a techniquement réussi, mais de justesse. Lorsqu'il s'agit d'examens médicaux, même la nouvelle IA la plus impressionnante n'obtient que des résultats de niveau D. Selon les chercheurs, ce résultat médiocre n'en est pas moins un exploit historique pour l'IA.
Schéma du flux de travail pour la recherche, la codification et l'évaluation des résultats
Abréviations : QC = contrôle de qualité ; MCSA-NJ = réponse unique à choix multiple sans justification forcée ; MCSA-J = réponse unique à choix multiple avec justification forcée ; OE = format de question ouverte.
Les chercheurs ont testé ChatGPT à l'examen USMLE (United States Medical Licensing Exam), une série standardisée de trois examens que doivent passer les médecins américains en vue d'obtenir une licence médicale. ChatGPT a réussi à obtenir des scores compris entre 52,4 % et 75 % pour les trois niveaux de l'examen. Ce n'est peut-être pas un résultat extraordinaire pour tous les surdoués, mais c'est à peu près équivalent au seuil de réussite de 60 % pour l'examen.
Les chercheurs impliqués dans l'étude affirment que c'est la première fois que l'IA est capable d'atteindre ou d'approcher le seuil de réussite de cet examen notoirement difficile. Notamment, ChatGPT a dépassé les performances de PubMedGPT, un modèle équivalent formé exclusivement à la littérature du domaine biomédical, qui a obtenu un score de 50,8 % sur un ensemble de données plus anciennes de questions de type USMLE.
[B]ChatGPT utilisée par les élèves pour faire du plagiat[...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
