ChatGPT, conçu par OpenAI, est un chatbot reposant sur un modèle de langage avancé (LLM) basé sur GPT-3.5. Ce modèle prédit le mot suivant dans une séquence, ce qui permet à ChatGPT d'engager des conversations fluides et de générer des réponses souvent perçues comme très humaines. Une des innovations majeures de ChatGPT est l’apprentissage par renforcement avec retour d’information humain (RLHF), qui l’aide à améliorer sa capacité à comprendre des instructions et à offrir des réponses mieux adaptées aux attentes des utilisateurs.
En utilisant le modèle GPT-4, un LLM formé sur un large corpus de données textuelles, ChatGPT bénéficie également d'une combinaison d’apprentissage supervisé et par renforcement. Cela lui permet de réaliser des tâches complexes, telles que le raisonnement déductif, l’élaboration de chaînes de pensée et la gestion des dépendances à long terme. Contrairement aux modèles précédents d’intelligence artificielle centrés sur l’apprentissage profond, les LLM comme ChatGPT prédisent la probabilité d’une séquence de mots en fonction du contexte, ce qui leur permet de générer des phrases nouvelles mais cohérentes, imitant parfaitement le langage humain.
Depuis son lancement, ChatGPT a rapidement attiré l’attention en raison de sa capacité à générer des essais, des poèmes, des articles, et même du code informatique en quelques secondes. Dans le domaine médical, une étude publiée dans JAMA Network Open a impliqué 50 médecins, incluant des résidents et des praticiens expérimentés issus de grandes institutions hospitalières. Ces professionnels ont été évalués sur leur capacité à analyser six cas cliniques et à formuler un diagnostic précis, en justifiant leurs choix diagnostiques.
Les évaluations ont été réalisées de manière anonyme par des experts médicaux, qui ignoraient si les réponses provenaient de médecins utilisant ChatGPT, de médecins se basant uniquement sur leurs connaissances, ou directement du chatbot. Les cas, inspirés de véritables situations médicales, ont été tirés d’une base de données de 105 cas, soigneusement sélectionnée pour éviter tout biais. Un des cas analysés portait sur un homme de 76 ans présentant des douleurs après une angioplastie, avec des symptômes complexes nécessitant une analyse détaillée.
Les résultats ont montré que ChatGPT surclassait certains médecins dans l’analyse de ces cas, bien que le chatbot ne puisse pas interagir physiquement avec un patient, une étape clé pour poser un diagnostic. Cette limitation soulève des questions sur son efficacité dans un environnement clinique réel, où l’interaction humaine et l’examen physique sont essentiels pour un diagnostic précis.
ChatGPT a également démontré des performances impressionnantes dans des examens médicaux exigeants comme l’USMLE, obtenant des scores proches de la réussite. Bien qu’il reste des faiblesses dans des domaines spécifiques, comme les mathématiques, il a prouvé sa capacité à effectuer des raisonnements complexes. Une autre étude a même montré qu’il pouvait dépasser les étudiants en médecine dans certaines tâches, ce qui soulève des questions sur l’impact de l’IA sur la formation des futurs professionnels de santé.
L’utilisation de ChatGPT-4 en médecine : Un cadre inadapté ?
L’étude comparant les performances de ChatGPT-4 aux médecins humains présente des limites méthodologiques importantes. D'abord, l’échantillon est trop restreint, avec seulement six cas cliniques analysés par 50 médecins, ce qui ne permet pas de tirer des conclusions solides sur l’efficacité de l’IA dans des contextes plus vastes. Une étude plus large, avec un nombre plus important de cas variés et de participants, serait nécessaire pour évaluer l’outil de manière plus exhaustive.
En outre, l’étude repose sur un cadre artificiel, où les cas sont extraits d’une base de données sans interaction directe entre médecin et patient. En réalité, le diagnostic médical implique des éléments que ChatGPT ne peut pas saisir, comme les observations physiques et l’analyse contextuelle. Cela limite l’applicabilité des résultats dans un cadre clinique, où le médecin examine et interagit directement avec le patient pour poser un diagnostic précis.
Un autre point important est le manque de formation des médecins à l’utilisation efficace des outils d’IA. Seule une petite portion des médecins a utilisé pleinement les capacités de ChatGPT en entrant l’intégralité des informations sur les patients. Cette absence de familiarité avec les outils d’IA peut limiter leur efficacité dans un contexte médical réel, soulignant l'importance de former les professionnels de santé à l’utilisation optimale de ces technologies.
Enfin, l’étude ne prend pas en compte les biais de survie et les hallucinations de l’IA. Les modèles d'IA, comme ChatGPT, reposent sur des données historiques, qui peuvent être incomplètes ou biaisées. Cela rend difficile l’évaluation de la capacité de l’IA à poser un diagnostic juste, sans erreurs ou hallucinations. La question des hallucinations est un problème majeur pour l’IA, car elle peut générer des réponses incorrectes ou incohérentes, ce qui nécessite des mécanismes d’évaluation plus rigoureux pour déterminer la fiabilité des diagnostics générés par l’IA.
En conclusion, bien que l’étude montre que ChatGPT-4 peut dépasser certains médecins dans l’analyse de cas diagnostiques spécifiques, il est crucial d’interpréter ces résultats avec prudence. L'IA offre un potentiel important pour compléter les compétences des professionnels de santé, mais elle ne doit pas remplacer le jugement clinique humain. Pour maximiser son efficacité dans le domaine médical, il est nécessaire de tenir compte des aspects comme la formation des utilisateurs, la qualité des données et les limites inhérentes aux modèles d'IA actuels.
Source : JAMA Network Open
Et vous ?
Quel est votre avis sur le sujet ?
Les conclusions de l'étude publiée dans JAMA Network Open sont-elles pertinentes ?
Dans quelle mesure les conditions expérimentales, qui ne prennent pas en compte l’interaction directe entre médecin et patient, affectent-elles la validité des résultats ?
Pensez-vous que l'absence de capacité de ChatGPT à réaliser des raisonnements contextuels complexes, tenant compte des émotions et de l'histoire personnelle du patient, affecte ses performances diagnostiques ?
Voir aussi :
ChatGPT a réussi de justesse à un examen médical important, un exploit historique pour l'IA, mais elle serait encore mauvaise en mathématiques
ChatGPT surpasse les étudiants en médecine sur les questions de l'examen de soins cliniques, ce qui soulève des questions sur l'impact de l'IA sur l'enseignement médical et la pratique clinique
ChatGPT génère des plans de traitement du cancer truffés d'erreurs, selon une étude menée par des chercheurs du Brigham and Women's Hospital