L’IA est-elle réellement en mesure de diagnostiquer les patients comme le ferait un médecin humain ? Cela est possible, à condition que l’IA acquière la compréhension la plus juste possible du langage naturel. Nabla, une startup française, a conçu un chatbot médical basé sur GPT-3 d’OpenAI, qui est actuellement le plus gros modèle de langage jamais entraîné, avec environ 175 milliards de paramètres, pour fournir des conseils aux patients. Lors des tests, Nabla a pu observer quelques limites de GPT-3 et le chabot a même conseillé à un patient simulé de se suicider.
L’utilisation de l’IA comme assistante médicale, conseillère médicale, ou comme médecin virtuel a attisé la curiosité de plusieurs entreprises au cours de ces dernières années. L’usage de l’intelligence artificielle permettra de dématérialiser et d'automatiser les soins de santé afin de mettre en place des services tels que le diagnostic automatisé, la documentation médicale et la découverte de médicaments, pour n'en citer que quelques-uns. Pour cela, les chercheurs font appel aux programmes d’IA à même de répondre à des questions formulées en langage naturel, dont GPT ou IBM Watson IA.
Des systèmes existants de ce type ont montré des résultats louables, mais il reste encore beaucoup de chemin à parcourir. Cependant, en se référant aux prouesses actuelles de l’IA dans les soins de santé, certains ont affirmé que les algorithmes surpassent déjà les médecins dans certaines tâches et d'autres ont même déclaré que les robots pourraient bientôt recevoir leurs propres diplômes médicaux. Selon Nabla, tout cela semble un peu tiré par les cheveux et l’entreprise a donc décidé de faire quelques expériences en concevant un chabot médical basé sur GPT-3 d’OpenAI.
GPT-3 (Pre-training Transformer 3) est un modèle de traitement du langage naturel développé par OpenAI. Il a été annoncé en mai 2020 et ouvert aux utilisateurs via une API en juillet. Il est actuellement le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. Le bot de Nabla a été conçu pour aider les médecins en prenant automatiquement en charge une partie de leur charge de travail quotidienne. Mais après avoir fait une série de tests, la startup française a en effet conclu que la nature erratique et imprévisible des réponses du logiciel le rend inapproprié pour interagir avec les patients dans le monde réel.
En effet, Nabla a réalisé ces tests pour voir comment GPT-3 fonctionne sur les cas d'utilisation des soins de santé suivants : discussion administrative avec un patient, vérification de l'assurance médicale, assistance à la santé mentale, documentation médicale, questions et réponses médicales ainsi qu’un diagnostic médical. Nabla note que ces cas d’utilisation sont classés grossièrement de faible à forte sensibilité d'un point de vue médical. Voici quelques résultats issus de ces tests.
GPT-3 : votre prochain assistant médical ?
Le premier test de Nabla a montré que GPT-3 semblait fonctionner pour des tâches administratives de base telles que la prise de rendez-vous, mais en creusant un peu plus loin, il a découvert que le modèle n'avait pas une compréhension claire du temps ni une logique appropriée. En outre, il a aussi découvert que sa mémoire est aussi parfois défaillante, par exemple pour la prise de rendez-vous. Dans une discussion, le modèle a négligé la contrainte initiale de 18 heures imposée par le patient, car GPT-3 suggère de réserver pour 19 heures après quelques messages.
Qu'en est-il des contrôles d'assurance ?
L’on estime ici que GPT-3 pourrait aider les infirmières ou les patients à trouver rapidement un élément d'information dans un document très long, dont la recherche de prestations d'assurance pour des examens médicaux spécifiques. Pour cela, Nabla a enrichi le modèle avec un tableau standard des prestations de 4 pages qui montre un copaiement de 10 dollars pour une radiographie, 20 dollars pour un examen IRM, puis il lui a posé deux questions simples. GPT-3 a pu obtenir le copaiement d'une radiographie, mais n'a pas pu additionner les copaiements de plusieurs examens, ce qui souligne une fois de plus un manque de raisonnement de base.
Un chatbot GPT-3 pour soulager le stress
Nabla note ici que GPT-3 est capable d’écouter vos problèmes à l'infini et vous donnera peut-être même quelques conseils pratiques. Selon lui, c'est probablement l'un des meilleurs cas d'utilisation de GPT-3 dans les soins de santé, et ce n'est pas si surprenant compte tenu des résultats déjà bons de l'algorithme Eliza en 1966, qui a réussi à donner une touche humaine avec seulement des règles de correspondance de formes fonctionnant en coulisses. Cependant, il est important de noter qu’il existe une différence fondamentale entre les deux types d’algorithmes.
Les systèmes basés sur des règles comme Eliza contrôlaient entièrement la réponse de l'ordinateur. En d'autres mots, l’on était certain que rien de potentiellement nuisible ne pouvait être dit. Cela contraste avec l'exemple du test de Nabla dans lequel GPT-3 a tristement dit au patient simulé que se suicider est une bonne idée. Le modèle peut également produire des réponses inattendues lorsqu'il suggère de recycler davantage pour réduire le stress, en utilisant un raisonnement qui, tout en étant alambiqué, est en fait très sensé.
Questions-réponses médicales : pas encore aussi bon que le bon vieux Google
Dans ce cas d’utilisation, Nabla a déclaré que GPT-3 n’est pas encore aussi bon que la recherche sur Google. Les tests ont permis d’observer que pour la recherche d’informations scientifique spécifique, les posologies des médicaments ou les aides à la prescription, GPT-3 n'est pas assez stable pour être utilisé en toute sécurité comme un outil d'aide fiable pour les médecins. Une préoccupation sérieuse est que GPT-3 donne très souvent des réponses erronées, mais grammaticalement correctes, sans aucune référence scientifique qu'un médecin pourrait vérifier.
Cela peut être dangereux dans un cas d’utilisation réel. Par exemple, un médecin fatigué, pris dans la précipitation d'un service d'urgence, pourrait très facilement confondre une déclaration syntaxiquement correcte avec une déclaration médicalement valable.
GTP-3 et les diagnostics médicaux : le modèle se trompe sur toute la ligne
Le diagnostic est une tâche plus complexe de questions-réponses : il s'agit de saisir les symptômes et d'avoir les éventuelles conditions sous-jacentes qui pourraient expliquer ces symptômes. À la suite des tests, Nabla a jugé que les récents systèmes de contrôle des symptômes (Babylon, KHealth, Ada, etc.), s'ils ne sont pas parfaits, semblent être une meilleure option que GPT-3, car ils ont été soigneusement optimisés à cette seule fin. L'un des avantages que possèdent ces systèmes est qu'ils sont en mesure de produire différents diagnostics avec leurs probabilités.
Selon Nabla, cela constitue une mesure de confiance pour le praticien. Les tests ont montré que GPT-3 ignore la fièvre simulée d’une petite fille, mais suggère une ethmoïdite et mentionne une “éruption” qui n'existe pas.
GPT-3 n’est pas du tout prêt pour le domaine des soins de santé
Alors, docteur GTP-3 : une bonne idée ? Pour l’instant, Nabla pense que ce n’est pas une très bonne idée, estimant que GPT-3 jouit actuellement d’un faible niveau pour ce qui est de la compréhension et de l'interprétation de la grammaire des soins de santé. Bien qu'aucun produit médical utilisant GPT-3 ne soit actuellement disponible sur le marché, les universitaires et les entreprises jouent avec cette idée. Selon Nabla, le modèle d'OpenAI, créé à l’origine comme un générateur de texte à usage général, est trop risqué pour être utilisé dans le domaine de la santé.
« Il n'a tout simplement pas été conçu pour donner des conseils médicaux », a-t-il déclaré. « En raison de la façon dont GPT-3 a été formé, il manque l'expertise scientifique et médicale qui le rendrait utile pour le soutien au diagnostic, la documentation médicale, la recommandation de traitement ou toute question médicale », a ajouté l'équipe Nabla dans un rapport sur ses expériences. « Oui, GPT-3 peut avoir raison dans ses réponses, mais il peut aussi être très mauvais, et cette incohérence n'est tout simplement pas viable dans le domaine des soins de santé ».
Source : Résultats des tests de Nabla avec GPT-3
Et vous ?
Qu'en pensez-vous ?
Voir aussi
Un faux blog d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes
OpenAI propose en bêta privée son modèle de traitement du langage naturel GPT-3. Ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps
OpenAI lance une API multitâche destinée à ses modèles d'IA basés sur du texte qu'il va commencer à commercialiser
Une IA rédige un essai sur les raisons pour lesquelles l'Homme ne devrait pas craindre l'intelligence artificielle, dans un contexte où certains prédisent la domination de la machine sur l'humain
Microsoft signe un partenariat avec OpenAI afin d'obtenir une licence exclusive pour le modèle de langage GPT-3, cette licence permet à Microsoft d'utiliser GPT-3 dans ses produits et services
Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider
Lors d'un test réalisé par Nabla
Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider
Lors d'un test réalisé par Nabla
Le , par Bill Fassinou
Une erreur dans cette actualité ? Signalez-nous-la !