Bien que l'IA ne soit pas encore prête pour une utilisation clinique, les chercheurs estiment qu'elle pourrait contribuer à rendre les soins de santé plus accessibles. Toutefois, des précautions sont nécessaires, notamment pour évaluer les éventuels biais et garantir l'équité entre différentes populations. La protection de la vie privée des utilisateurs de chatbots est également soulignée comme une considération cruciale.
Au cœur de la médecine réside le dialogue entre le médecin et le patient, où une anamnèse habile ouvre la voie à un diagnostic précis, une gestion efficace et une confiance durable. Les systèmes d'intelligence artificielle (IA) capables de dialoguer pour un diagnostic pourraient améliorer l'accessibilité, la cohérence et la qualité des soins. Cependant, imiter l'expertise des cliniciens reste un défi majeur.
AMIE, un système d'intelligence artificielle basé sur un grand modèle de langage (LLM) optimisé pour le dialogue diagnostique, utilise un environnement simulé basé sur l'auto-jeu avec des mécanismes de retour d'information automatisés pour étendre l'apprentissage à diverses maladies, spécialités et contextes. L'outil d'IA a démontré une précision supérieure à celle des médecins de premier recours certifiés dans le diagnostic des affections respiratoires et cardiovasculaires, entre autres.
L'évolution des grands modeles de langage : au-dela des mots, vers des dialogues diagnostiques en sante
Un grand modèle de langage (LLM) est un algorithme d'apprentissage profond qui peut effectuer une variété de tâches de traitement du langage naturel (NLP). Les grands modèles de langage utilisent des modèles de transformation et sont formés à l'aide d'ensembles de données massifs - d'où le terme « grand ». Cela leur permet de reconnaître, traduire, prédire ou générer du texte ou d'autres contenus.
Les grands modèles linguistiques sont également appelés réseaux neuronaux (RN), qui sont des systèmes informatiques inspirés du cerveau humain. Ces réseaux neuronaux fonctionnent à l'aide d'un réseau de nœuds en couches, à l'instar des neurones. Outre l'apprentissage des langues humaines pour les applications d'intelligence artificielle, les grands modèles de langage peuvent également être entraînés à effectuer diverses tâches telles que la compréhension des structures protéiques, l'écriture de codes logiciels, etc.
À l'instar du cerveau humain, les grands modèles de langage doivent être pré-entraînés puis affinés afin de pouvoir résoudre des problèmes de classification de textes et de réponse à des questions. Leurs capacités de résolution de problèmes peuvent être appliquées à des domaines tels que la santé. Les grands modèles de langage ont également un grand nombre de paramètres, qui sont comme des mémoires que le modèle recueille au fur et à mesure qu'il apprend lors de la formation. Ces paramètres constituent la banque de connaissances du modèle.
Les progrès récents des grands modèles de langage (LLM) en dehors du domaine médical ont montré qu'ils peuvent planifier, raisonner et utiliser un contexte pertinent pour tenir des conversations riches. Cependant, de nombreux aspects d'un bon dialogue diagnostique sont propres au domaine médical. Un clinicien efficace établit un « historique clinique » complet et pose des questions intelligentes qui aident à établir un diagnostic différentiel.
Il dispose de compétences considérables pour établir une relation efficace, fournir des informations claires, prendre des décisions conjointes et éclairées avec le patient, réagir avec empathie à ses émotions et le soutenir dans les étapes suivantes des soins. Bien que les LLM puissent effectuer avec précision des tâches telles que la synthèse médicale ou la réponse à des questions médicales, peu de travaux ont été consacrés au développement de ce type de capacités de diagnostic conversationnel.
En début d'année dernière, des chercheurs de Google et de DeepMind ont présenté un grand modèle de langage, appelé Med-PaLM, destiné à répondre à des questions médicales non spécialisées. Med-PaLM, basé sur le modèle de langage PaLM de Google avec 540 milliards de paramètres, a montré des performances équivalentes, voire supérieures, à celles des médecins humains dans le diagnostic des affections respiratoires et cardiovasculaires.
L'équipe a utilisé une nouvelle méthode appelée "Instruction Prompt Tuning", combinant des invites souples, des données médicales limitées et des invites rédigées par des humains. Med-PaLM a obtenu des résultats comparables aux professionnels dans la plupart des tests, surpassant notamment Flan-PaLM. Les performances du modèle ont été évaluées sur MultiMedQA, un benchmark de questions-réponses médicales, et ont montré des résultats encourageants, bien que l'IA ne soit pas encore prête pour une utilisation clinique.
Le modèle a également présenté moins de réponses potentiellement dangereuses par rapport à Flan-PaLM. Le rapport suggère que les modèles de langage, tels que Med-PaLM, pourraient jouer un rôle émergent dans le domaine médical, mais souligne l'importance d'une approche prudente pour garantir la fiabilité et la sécurité des réponses fournies par l'IA.
Par rapport aux médecins humains, AMIE a réussi à acquérir une quantité similaire d'informations au cours des entretiens médicaux et a obtenu un meilleur classement en matière d'empathie. Alan Karthikesalingam, chercheur clinique chez Google Health à Londres et coauteur de l'étude, souligne qu'il s'agit de la première conception optimale d'un système d'IA conversationnel dédié au dialogue diagnostique et à la prise en compte des antécédents cliniques.
Bien que le chatbot soit encore à un stade expérimental et n'ait pas été testé sur des personnes présentant de réels problèmes de santé, les auteurs estiment qu'il pourrait éventuellement contribuer à la démocratisation des soins de santé. Cependant, ils insistent sur le fait qu'il ne devrait pas remplacer les interactions avec les médecins, car la médecine va au-delà de la collecte d'informations, impliquant des relations humaines, comme le souligne le Dr Adam Rodman de la Harvard Medical School.
ChatGPT vs. Médecins : une étude révèle des préférences surprenantes
Une autre étude, publiée dans la revue JAMA Internal Medicine, met en avant que dans 79 % des cas, un panel de professionnels de la santé a préféré les réponses de ChatGPT à des questions médicales par rapport à celles d'un médecin. Ces résultats suggèrent que les assistants d'intelligence artificielle, tels que ChatGPT, pourraient jouer un rôle dans la rédaction des communications entre médecins et patients. Cependant, des mises en garde ont été émises concernant la délégation de la responsabilité clinique, car le chatbot a tendance à produire des informations incorrectes. Des recherches futures se concentreront sur l'évaluation des biais potentiels et la garantie de l'équité pour différentes populations, ainsi que sur les exigences éthiques pour tester le système avec des humains ayant de réels problèmes médicaux.
Selon les auteurs de l'étude, ces résultats mettent en évidence le rôle que pourraient jouer les assistants d'intelligence artificielle dans la médecine, en suggérant que ces agents pourraient aider à rédiger les communications des médecins avec les patients. « Les possibilités d'améliorer les soins de santé grâce à l'IA sont énormes », a déclaré le Dr John Ayers, de l'université de Californie à San Diego.
D'autres ont toutefois fait remarquer que les résultats ne signifiaient pas que ChatGPT était un meilleur médecin et ont mis en garde contre la délégation de la responsabilité clinique, étant donné que le chatbot a tendance à produire des « faits » qui ne sont pas vrais. Les questions originales ont été posées au modèle de langage d'IA, ChatGPT, auquel il a été demandé de répondre. Un panel de trois professionnels de la santé agréés, qui ne savaient pas si la réponse provenait d'un médecin humain ou de ChatGPT, a évalué les réponses en fonction de leur qualité et de leur empathie.
Dans l'ensemble, le panel a préféré les réponses de ChatGPT à celles d'un médecin humain dans 79 % des cas. Les réponses du ChatGPT ont également été jugées de bonne ou de très bonne qualité dans 79 % des cas, contre 22 % des réponses des médecins, et 45 % des réponses du ChatGPT ont été jugées empathiques ou très empathiques, contre seulement 5 % des réponses des médecins.
Le Dr Christopher Longhurst, de l'UC San Diego Health, a déclaré : « Ces résultats suggèrent que des outils tels que ChatGPT peuvent efficacement rédiger des conseils médicaux personnalisés de haute qualité qui seront examinés par les cliniciens, et nous commençons ce processus à l'UCSD Health. » Certains ont fait remarquer qu'étant donné que le ChatGPT a été spécifiquement optimisé pour être sympathique, il n'est pas surprenant qu'il écrive des textes qui donnent l'impression d'être empathiques. Il a également eu tendance à donner des réponses plus longues et plus bavardes que les médecins humains, ce qui pourrait avoir joué un rôle dans ses notes plus élevées.
Le professeur Anthony Cohn, de l'université de Leeds, a déclaré que l'utilisation des modèles de langage comme outil de rédaction des réponses était un « cas d'utilisation raisonnable pour une adoption rapide », mais que même dans un rôle de soutien, ils devraient être utilisés avec prudence. « Il a été démontré que les humains font trop confiance aux réponses des machines, en particulier lorsqu'elles sont souvent justes, et un humain n'est pas toujours suffisamment vigilant pour vérifier correctement la réponse d'un chatbot », a-t-il déclaré. « Il faudrait se prémunir contre cela, peut-être en utilisant des réponses synthétiques erronées aléatoires pour tester la vigilance. »
A la recherche d'un chatbot impartial
Les chercheurs de Google envisagent comme prochaine étape cruciale de mener des études approfondies pour évaluer les possibles biais et garantir l'équité du système pour diverses populations. L'équipe de Google se penche également sur les exigences éthiques en vue de tester le système avec des individus confrontés à de véritables problèmes médicaux. Daniel Ting, clinicien spécialiste de l'IA à l'école de médecine Duke-NUS de Singapour, souligne l'importance d'examiner le système pour détecter les biais, assurant ainsi que l'algorithme n'impacte pas négativement les groupes raciaux sous-représentés dans les ensembles de données d'apprentissage.
La protection de la vie privée des utilisateurs de chatbots est également une considération cruciale, selon Ting. Il souligne le manque de transparence quant au stockage et à l'analyse des données pour de nombreuses plateformes commerciales de modèles de langage.
L'essor rapide des soins de santé virtuels a engendré une hausse du nombre de messages de patients, entraînant une charge de travail accrue et un épuisement professionnel chez les professionnels de la santé. Les assistants d'intelligence artificielle pourraient potentiellement contribuer à répondre aux questions des patients en rédigeant des réponses examinables par les cliniciens.
L'étude présente plusieurs limites et doit être interprétée avec prudence. Les cliniciens étaient limités à un chat textuel synchrone, peu familier et permettant des interactions LLM-patient à grande échelle, mais non représentatif de la pratique clinique habituelle. Des recherches supplémentaires sont nécessaires avant qu'AMIE puisse être appliqué dans le monde réel.
L'intégration d'assistants d'intelligence artificielle dans le domaine de la santé sucite plusieurs préoccupations éthiques et pratiques. Tout d'abord, il est crucial de garantir la précision des informations fournies par ces assistants. Les erreurs médicales peuvent avoir des conséquences graves, et la confiance accordée aux systèmes d'IA doit reposer sur des résultats rigoureusement validés et continuellement évalués.
Par ailleurs, la confidentialité des données de santé des patients est une préoccupation majeure. Les utilisateurs doivent avoir l'assurance que leurs informations médicales sont traitées de manière sécurisée et conforme aux normes de confidentialité. Les concepteurs d'assistants d'IA doivent mettre en place des mécanismes robustes pour protéger la vie privée des utilisateurs.
Un autre défi concerne la diversité des patients et des conditions médicales. Les modèles d'IA doivent être formés sur des ensembles de données variés et représentatifs pour éviter les biais et assurer des résultats équitables pour tous les groupes démographiques. Il est également essentiel que les assistants d'IA soient considérés comme des outils complémentaires plutôt que des substituts aux professionnels de la santé. Rien ne peut remplacer l'expérience humaine, l'intuition clinique et la relation patient-médecin. Les utilisateurs doivent être conscients des limites de ces systèmes et être encouragés à consulter un professionnel de la santé pour des problèmes complexes ou des situations d'urgence.
Technologies d'IA en sante : un équilibre essentiel entre promesses et précautions
Les résultats des recherches menées par les chercheurs de Google sur Articulate Medical Intelligence Explorer ainsi que l'étude publiée dans la revue JAMA Internal Medicine sur ChatGPT suscitent un mélange de fascination et de préoccupations légitimes.
Concernant AMIE, les performances notables de cette intelligence artificielle dans le diagnostic des affections respiratoires et cardiovasculaires, dépassant même la précision diagnostique et l'empathie des médecins humains dans certains aspects, sont indéniablement impressionnantes. Cependant, il est impératif de rester prudent quant à l'application réelle de ces résultats dans des situations cliniques. Les limites actuelles, telles que le fait qu'AMIE n'ait pas été testé sur des patients réels et qu'il ait été évalué dans un contexte simulé, pourraient soulever des questions quant à la généralisabilité de ces performances. Il est essentiel de poursuivre les recherches pour s'assurer de la fiabilité d'AMIE dans des environnements de soins réels et de son adaptation à diverses populations.
En ce qui concerne l'étude sur ChatGPT, les résultats indiquant que dans 79 % des cas, un panel de professionnels de la santé a préféré les réponses du modèle de langage à celles d'un médecin soulèvent des points intéressants. Toutefois, il est crucial de noter que la préférence du panel ne doit pas être interprétée comme une supériorité globale de ChatGPT par rapport aux médecins humains. L'évaluation de la qualité et de l'empathie des réponses est une dimension spécifique qui peut être biaisée par des critères particuliers du panel et les caractéristiques propres à ChatGPT, telles que sa tendance à produire des réponses plus longues et bavardes. Ces résultats ne doivent pas conduire à une délégation aveugle de responsabilités cliniques à des modèles d'IA, car les décisions médicales impliquent souvent des nuances et une compréhension approfondie des contextes individuels.
Bien que ces études démontrent le potentiel fascinant des technologies d'IA dans le domaine médical, il est crucial de maintenir une approche critique. Des recherches supplémentaires, des tests cliniques approfondis, et une évaluation continue sont nécessaires pour garantir la fiabilité, la sécurité et l'éthique des applications médicales basées sur l'IA. L'humain doit rester au cœur des décisions médicales, avec les systèmes d'IA agissant en tant qu'outils complémentaires, mais jamais en remplacement complet des professionnels de la santé.
Sources : Google, JAMA Internal Medicine
Et vous ?
Quel est votre avis sur le sujet ?
Accorderiez-vous votre confiance à un diagnostic établi par une intelligence artificielle ?
Quelle est votre position concernant l'application de l'intelligence artificielle dans le secteur de la santé ?
En quoi les résultats prometteurs d'AMIE pourraient-ils être compromis lors de l'utilisation dans des situations cliniques réelles ?
Voir aussi :
Google a formé un modèle de langage qui serait capable de répondre aux questions d'ordre médicales avec une précision de 92,6 %, les médecins eux-mêmes ont obtenu un score de 92,9 %
Google crée une IA de détection du cancer du poumon qui surpasse celle de six radiologistes humains, après examen de 45 856 scanners thoraciques
Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »