IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider
Lors d'un test réalisé par Nabla

Le , par Bill Fassinou

147PARTAGES

10  1 
L’IA est-elle réellement en mesure de diagnostiquer les patients comme le ferait un médecin humain ? Cela est possible, à condition que l’IA acquière la compréhension la plus juste possible du langage naturel. Nabla, une startup française, a conçu un chatbot médical basé sur GPT-3 d’OpenAI, qui est actuellement le plus gros modèle de langage jamais entraîné, avec environ 175 milliards de paramètres, pour fournir des conseils aux patients. Lors des tests, Nabla a pu observer quelques limites de GPT-3 et le chabot a même conseillé à un patient simulé de se suicider.

L’utilisation de l’IA comme assistante médicale, conseillère médicale, ou comme médecin virtuel a attisé la curiosité de plusieurs entreprises au cours de ces dernières années. L’usage de l’intelligence artificielle permettra de dématérialiser et d'automatiser les soins de santé afin de mettre en place des services tels que le diagnostic automatisé, la documentation médicale et la découverte de médicaments, pour n'en citer que quelques-uns. Pour cela, les chercheurs font appel aux programmes d’IA à même de répondre à des questions formulées en langage naturel, dont GPT ou IBM Watson IA.

Des systèmes existants de ce type ont montré des résultats louables, mais il reste encore beaucoup de chemin à parcourir. Cependant, en se référant aux prouesses actuelles de l’IA dans les soins de santé, certains ont affirmé que les algorithmes surpassent déjà les médecins dans certaines tâches et d'autres ont même déclaré que les robots pourraient bientôt recevoir leurs propres diplômes médicaux. Selon Nabla, tout cela semble un peu tiré par les cheveux et l’entreprise a donc décidé de faire quelques expériences en concevant un chabot médical basé sur GPT-3 d’OpenAI.


GPT-3 (Pre-training Transformer 3) est un modèle de traitement du langage naturel développé par OpenAI. Il a été annoncé en mai 2020 et ouvert aux utilisateurs via une API en juillet. Il est actuellement le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. Le bot de Nabla a été conçu pour aider les médecins en prenant automatiquement en charge une partie de leur charge de travail quotidienne. Mais après avoir fait une série de tests, la startup française a en effet conclu que la nature erratique et imprévisible des réponses du logiciel le rend inapproprié pour interagir avec les patients dans le monde réel.

En effet, Nabla a réalisé ces tests pour voir comment GPT-3 fonctionne sur les cas d'utilisation des soins de santé suivants : discussion administrative avec un patient, vérification de l'assurance médicale, assistance à la santé mentale, documentation médicale, questions et réponses médicales ainsi qu’un diagnostic médical. Nabla note que ces cas d’utilisation sont classés grossièrement de faible à forte sensibilité d'un point de vue médical. Voici quelques résultats issus de ces tests.

GPT-3 : votre prochain assistant médical ?

Le premier test de Nabla a montré que GPT-3 semblait fonctionner pour des tâches administratives de base telles que la prise de rendez-vous, mais en creusant un peu plus loin, il a découvert que le modèle n'avait pas une compréhension claire du temps ni une logique appropriée. En outre, il a aussi découvert que sa mémoire est aussi parfois défaillante, par exemple pour la prise de rendez-vous. Dans une discussion, le modèle a négligé la contrainte initiale de 18 heures imposée par le patient, car GPT-3 suggère de réserver pour 19 heures après quelques messages.

Qu'en est-il des contrôles d'assurance ?

L’on estime ici que GPT-3 pourrait aider les infirmières ou les patients à trouver rapidement un élément d'information dans un document très long, dont la recherche de prestations d'assurance pour des examens médicaux spécifiques. Pour cela, Nabla a enrichi le modèle avec un tableau standard des prestations de 4 pages qui montre un copaiement de 10 dollars pour une radiographie, 20 dollars pour un examen IRM, puis il lui a posé deux questions simples. GPT-3 a pu obtenir le copaiement d'une radiographie, mais n'a pas pu additionner les copaiements de plusieurs examens, ce qui souligne une fois de plus un manque de raisonnement de base.

Un chatbot GPT-3 pour soulager le stress

Nabla note ici que GPT-3 est capable d’écouter vos problèmes à l'infini et vous donnera peut-être même quelques conseils pratiques. Selon lui, c'est probablement l'un des meilleurs cas d'utilisation de GPT-3 dans les soins de santé, et ce n'est pas si surprenant compte tenu des résultats déjà bons de l'algorithme Eliza en 1966, qui a réussi à donner une touche humaine avec seulement des règles de correspondance de formes fonctionnant en coulisses. Cependant, il est important de noter qu’il existe une différence fondamentale entre les deux types d’algorithmes.


Les systèmes basés sur des règles comme Eliza contrôlaient entièrement la réponse de l'ordinateur. En d'autres mots, l’on était certain que rien de potentiellement nuisible ne pouvait être dit. Cela contraste avec l'exemple du test de Nabla dans lequel GPT-3 a tristement dit au patient simulé que se suicider est une bonne idée. Le modèle peut également produire des réponses inattendues lorsqu'il suggère de recycler davantage pour réduire le stress, en utilisant un raisonnement qui, tout en étant alambiqué, est en fait très sensé.

Questions-réponses médicales : pas encore aussi bon que le bon vieux Google

Dans ce cas d’utilisation, Nabla a déclaré que GPT-3 n’est pas encore aussi bon que la recherche sur Google. Les tests ont permis d’observer que pour la recherche d’informations scientifique spécifique, les posologies des médicaments ou les aides à la prescription, GPT-3 n'est pas assez stable pour être utilisé en toute sécurité comme un outil d'aide fiable pour les médecins. Une préoccupation sérieuse est que GPT-3 donne très souvent des réponses erronées, mais grammaticalement correctes, sans aucune référence scientifique qu'un médecin pourrait vérifier.

Cela peut être dangereux dans un cas d’utilisation réel. Par exemple, un médecin fatigué, pris dans la précipitation d'un service d'urgence, pourrait très facilement confondre une déclaration syntaxiquement correcte avec une déclaration médicalement valable.

GTP-3 et les diagnostics médicaux : le modèle se trompe sur toute la ligne

Le diagnostic est une tâche plus complexe de questions-réponses : il s'agit de saisir les symptômes et d'avoir les éventuelles conditions sous-jacentes qui pourraient expliquer ces symptômes. À la suite des tests, Nabla a jugé que les récents systèmes de contrôle des symptômes (Babylon, KHealth, Ada, etc.), s'ils ne sont pas parfaits, semblent être une meilleure option que GPT-3, car ils ont été soigneusement optimisés à cette seule fin. L'un des avantages que possèdent ces systèmes est qu'ils sont en mesure de produire différents diagnostics avec leurs probabilités.

Selon Nabla, cela constitue une mesure de confiance pour le praticien. Les tests ont montré que GPT-3 ignore la fièvre simulée d’une petite fille, mais suggère une ethmoïdite et mentionne une “éruption” qui n'existe pas.

GPT-3 n’est pas du tout prêt pour le domaine des soins de santé

Alors, docteur GTP-3 : une bonne idée ? Pour l’instant, Nabla pense que ce n’est pas une très bonne idée, estimant que GPT-3 jouit actuellement d’un faible niveau pour ce qui est de la compréhension et de l'interprétation de la grammaire des soins de santé. Bien qu'aucun produit médical utilisant GPT-3 ne soit actuellement disponible sur le marché, les universitaires et les entreprises jouent avec cette idée. Selon Nabla, le modèle d'OpenAI, créé à l’origine comme un générateur de texte à usage général, est trop risqué pour être utilisé dans le domaine de la santé.

« Il n'a tout simplement pas été conçu pour donner des conseils médicaux », a-t-il déclaré. « En raison de la façon dont GPT-3 a été formé, il manque l'expertise scientifique et médicale qui le rendrait utile pour le soutien au diagnostic, la documentation médicale, la recommandation de traitement ou toute question médicale », a ajouté l'équipe Nabla dans un rapport sur ses expériences. « Oui, GPT-3 peut avoir raison dans ses réponses, mais il peut aussi être très mauvais, et cette incohérence n'est tout simplement pas viable dans le domaine des soins de santé ».

Source : Résultats des tests de Nabla avec GPT-3

Et vous ?

Qu'en pensez-vous ?

Voir aussi

Un faux blog d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes

OpenAI propose en bêta privée son modèle de traitement du langage naturel GPT-3. Ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps

OpenAI lance une API multitâche destinée à ses modèles d'IA basés sur du texte qu'il va commencer à commercialiser

Une IA rédige un essai sur les raisons pour lesquelles l'Homme ne devrait pas craindre l'intelligence artificielle, dans un contexte où certains prédisent la domination de la machine sur l'humain


Microsoft signe un partenariat avec OpenAI afin d'obtenir une licence exclusive pour le modèle de langage GPT-3, cette licence permet à Microsoft d'utiliser GPT-3 dans ses produits et services

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de calvaire
Expert éminent https://www.developpez.com
Le 29/10/2020 à 12:40
je n'ai jamais vu un chatbot utile.
a chaque fois c'est pour me répondre à coté de la plaque ou alors pour m'envoyer une réponse de la FAQ que j'ai déjà lu et qui réponds pas à mon problème.
Au final ca m'énerve, l'image de marque ce dégrade dans mon esprit et je le fais bien savoir quand j'arrive enfin a contacter quelqu'un.

je ne sais pas pourquoi les entreprises continue d'investir la dedans et de les déployer alors que ca sert à rien. Qui ce souvient de clippy dans office

edit: même chose avec les assistant vocaux, j'ai jamais vu quelqu'un au boulot ou dans la rue demander un truc à siri/cortana/alexa/google
enfin si la 1ere fois juste pour rigoler/découvrir mais après...
6  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 29/10/2020 à 10:03
Faut-il répéter une nouvelle fois que les systèmes AI ont toutes la même faiblesse:

On enseigne à une AI des compétences mais l'on ne sait pas comment et selon quelle logique l'AI "apprend", selon quels critères l'AI "mémorise" et au final comment l'AI applique son "savoir"!

La totalité des AI ont au final le même comportement: Elles répondent "logiquement" dans le sens que l'on désire dans 99% des cas mais... Elles se comportent de manière illogique de temps en temps. Le tout est de savoir si l'on accepte ou pas les conséquences de cet illogisme!

Cet état de fait est démontré avec l'exemple suivant: Vous apprenez à une IA à reconnaître des oranges; Vous changez un pixel sur la photo de l'orange et l'IA vous dira qu'il s'agit d'un hélicoptère. Ce fait est connu par tous les experts en IA et aucun n'a jamais réussi à expliquer le pourquoi ni n'a été capable d'éviter ce problème.
3  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 29/10/2020 à 10:57
Citation Envoyé par L33tige Voir le message
C'est pour ça qu'en regle générale on lui apprends à reconnaitre des millions d'oranges différentes prises par des millions d'appareils photos différents... Pur être honnête ce genre de réponse à aussi du être faite par des vrais médecins quand on voit certains spécimens...
Tu peux apprendre à ton IA des milliards d'oranges différentes, il y aura toujours des réponses incompréhensibles et illogiques de l'IA!

Ce n'est pas ma théorie, c'est un fait qui est reconnu par la totalité des vrais experts en IA! Et c'est d'ailleurs la priorité de ces experts de trouver une solution à ce problème.

L'article suivant en parle:
https://www.science-et-vie.com/archi...attendue-41754
3  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 29/10/2020 à 11:16
Citation Envoyé par Anselme45 Voir le message
Tu peux apprendre à ton IA des milliards d'oranges différentes, il y aura toujours des réponses incompréhensibles et illogiques de l'IA!

Ce n'est pas ma théorie, c'est un fait qui est reconnu par la totalité des vrais experts en IA! Et c'est d'ailleurs la priorité de ces experts de trouver une solution à ce problème.

L'article suivant en parle:
https://www.science-et-vie.com/archi...attendue-41754
Bah il y à une solution, en augmentant le volume de données on réduit le pourcentage de réponses farfelues. Mais je me répète, trouve moi un humain qui est faillible à 1% seulement dans le domaine de mon choix, je l'embauche directement...
1  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 29/10/2020 à 10:32
Citation Envoyé par Anselme45 Voir le message
Faut-il répéter une nouvelle fois que les systèmes AI ont toutes la même faiblesse:

On enseigne à une AI des compétences mais l'on ne sait pas comment et selon quelle logique l'AI "apprend", selon quels critères l'AI "mémorise" et au final comment l'AI applique son "savoir"!

La totalité des AI ont au final le même comportement: Elles répondent "logiquement" dans le sens que l'on désire dans 99% des cas mais... Elles se comportent de manière illogique de temps en temps. Le tout est de savoir si l'on accepte ou pas les conséquences de cet illogisme!

Cet état de fait est démontré avec l'exemple suivant: Vous apprenez à une IA à reconnaître des oranges; Vous changez un pixel sur la photo de l'orange et l'IA vous dira qu'il s'agit d'un hélicoptère. Ce fait est connu par tous les experts en IA et aucun n'a jamais réussi à expliquer le pourquoi ni n'a été capable d'éviter ce problème.
C'est pour ça qu'en regle générale on lui apprends à reconnaitre des millions d'oranges différentes prises par des millions d'appareils photos différents... Pur être honnête ce genre de réponse à aussi du être faite par des vrais médecins quand on voit certains spécimens...
0  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 30/10/2020 à 9:57
Citation Envoyé par calvaire Voir le message
je n'ai jamais vu un chatbot utile.
a chaque fois c'est pour me répondre à coté de la plaque ou alors pour m'envoyer une réponse de la FAQ que j'ai déjà lu et qui réponds pas à mon problème.
Au final ca m'énerve, l'image de marque ce dégrade dans mon esprit et je le fais bien savoir quand j'arrive enfin a contacter quelqu'un.

je ne sais pas pourquoi les entreprises continue d'investir la dedans et de les déployer alors que ca sert à rien. Qui ce souvient de clippy dans office

edit: même chose avec les assistant vocaux, j'ai jamais vu quelqu'un au boulot ou dans la rue demander un truc à siri/cortana/alexa/google
enfin si la 1ere fois juste pour rigoler/découvrir mais après...
Alors ya un assistant vocal dont je pourrais pas me passer, c'est le MBUX, en alsace j'ai déjà prononcé le nom de rues et villages abusés, jamais il s'est trompé pour le GPS, tu peux le faire sans quitter les yeux et mains de la route, et ça évite de salir les écrans. Pareil pour ouvrir le toit ouvrant etc, honnêtement, mille fois mieux que du tactile, et au pire il reste les boutons. Mais effectivement, ciri et google assistant j'ai vraiment du mal avec le concept sur telephone.
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 30/10/2020 à 22:21
Citation Envoyé par L33tige Voir le message
C'est pour ça qu'en regle générale on lui apprends à reconnaitre des millions d'oranges différentes prises par des millions d'appareils photos différents... Pur être honnête ce genre de réponse à aussi du être faite par des vrais médecins quand on voit certains spécimens...
C'est vrai qu'il y en a des vertes et des pas mures...

Le point fort de l'IA c'est qu'en effet elle peut devenir très bonne dans une tâche courante, mais c'est aussi sa limite.

On montre un chat (ou un bon dessin) une fois à un enfant de 5 ans et il reconnaîtra tous les chats du monde, alors qu'une IA c'est 3 millions de chats dans un échantillon équilibré de tons, lumières, orientations, textures...

Bref, on arrive assez vite à la limite sur les problèmes rares. Il y a des tonnes de maladies et situations pour lesquelles sont formés les médecins, qui n'ont été étudiées qu'à partir d'une partie fraction de cours, quelques exemples et c'est tout. Certains cas se présenteront une fois dans sa vie, peut être, et beaucoup jamais. Je ne dis pas que le médecin va forcément s'en sortir (ça se saurait), mais une IA pas mieux à priori , car il n'y a pas de bases de données assez grandes par définition pour des cas de figures rares.
0  0 
Avatar de wallas00
Nouveau membre du Club https://www.developpez.com
Le 03/11/2020 à 15:33
Obligé d'intervenir pour clarifier certaines choses, sans trop rentrer dans les détails.


On enseigne à une AI des compétences mais l'on ne sait pas comment et selon quelle logique l'AI "apprend", selon quels critères l'AI "mémorise" et au final comment l'AI applique son "savoir"!
Alors:
- on sait comment " l'IA apprend": on utilise l'algèbre pour construire et exploiter l'espace des données sur lesquels on va travailler. Les statistiques et l'analyse stochastique pour la prédiction ou l'inférence, l'analyse pour tuner et/ou optimiser les calculs.

- on connait les critères selon lesquels l'automate "mémorise". Cependant, il faut être plus précis; à quel niveau fonctionnel vous situez-vous?
  • Bas niveau(neurone/fonction): poids
  • Moyen (couche): features (masques/calques, pitch/timbre, ...)
  • Haut niveau: architecture. Par exemple, vous êtes plus famillié avec les constructions semblables à l'architectures de Von Neuman, dans lesquelles la place de la mémoire est clairement définie.


- on sait comment l'IA applique son "savoir": dans le sous domaine de la classification, l'algorithme produit des probabilité sur la nature de la sortie. Malheureusement, le fait que l'application front end n'affiche que le résultat ayant la probabilité la plus élevée est une source d'incompréhension des mécanismes sous-jacents.

Il faut éviter de confondre IA(faible dans notre cas) avec "IA basée sur un algorithme d'apprentissage par renforcement" par exemple. En soit, les systèmes asservis sont des IA(faibles) qui fonctionnent TRES TRES bien, et dont les homo sapiens ont fait usage bien avant l'explosion de l'électronique.

Il faut aussi éviter de croire que " l'intelligence " fonctionne de la même manière à bas, moyen, et haut niveau.
Un concepte peu être clair à haut niveau, à tel point qu'il s'exprime par une phrase; mais à moyen niveau il sera probablement encapsulé dans une suite de symboles(mots, couleurs, odeurs, sons, émotions/niveau d'hormones) assemblés comme une charade n'ayant à priori aucun sens, sauf pour le cerveau de la personne qui exprime l'idée, et le "sociotype" auquel elle appartient. Enfin, à bas niveau, on a des fonctions (qu'on cherche toujours à clairement définir), des impulsions électriques/ chimiques, etc...
Et plus bas, il y a soit une âme, soit juste un système ultra sophistiqué capable de s'auto simuler (état de l'art en terme de spéculation sur la nature de la conscience).

GPT 3 peut être vue comme un algorithme qui à partir d'une base de donnée énormissime, calcule la probabilité de succession de mots dans une phrase. Comme la base de donnée est gigantesque et utilise des documents produits par des humains, le résultat peu parfois paraître impressionnant. Mais ce n'est que des statistiques tuner pour le traitement de texte et dopé à la puissance de calcul. GPT 3 ne peut pas non plus être considéré comme un système expert, car bien qu'il y ait beaucoup de publications scientifiques dans la base de données ayant servi à sa construction, il y a aussi (si je ne me trompe pas), la majeure parti du contenu de "reddit"; et les 2 peuvent contenir des propositions(phrases) incorrectes.
0  1 
Avatar de mh-cbon
Membre extrêmement actif https://www.developpez.com
Le 29/10/2020 à 12:34
Citation Envoyé par Anselme45 Voir le message
Faut-il répéter une nouvelle fois que les systèmes AI ont toutes la même faiblesse:

On enseigne à une AI des compétences mais l'on ne sait pas comment et selon quelle logique l'AI "apprend", selon quels critères l'AI "mémorise" et au final comment l'AI applique son "savoir"!

La totalité des AI ont au final le même comportement: Elles répondent "logiquement" dans le sens que l'on désire dans 99% des cas mais... Elles se comportent de manière illogique de temps en temps. Le tout est de savoir si l'on accepte ou pas les conséquences de cet illogisme!

Cet état de fait est démontré avec l'exemple suivant: Vous apprenez à une IA à reconnaître des oranges; Vous changez un pixel sur la photo de l'orange et l'IA vous dira qu'il s'agit d'un hélicoptère. Ce fait est connu par tous les experts en IA et aucun n'a jamais réussi à expliquer le pourquoi ni n'a été capable d'éviter ce problème.
A l'image de l'humain! Il voudrait se croire mu par des logiques d’enchaînement raisonnées, là où bien souvent c'est le manque d'information qui valide le raisonnement dans son cerveau (dunning kruger).
Notre tentative de créer une machine parfaitement logique est peut être inatteignable, car ni la machine ou l'homme ne sont cet être omniscient, omnipotent, mais surtout, imaginaire, dieu.
L'erreur n'est peut être pas humaine, en cela qu'elle est une nécessité de la condition physique qui est incapable de tout connaitre, tout savoir, en tout lieu et toute place pour obtenir la décision logique que l'homme s'imagine comme la rationalité correcte.
Et tant bien même, étant donné que nous ne sommes pas de cette rationalité parfaite tant désirée, comment pouvons nous dire avec certitude que la machine à tord lorsqu'elle lui répond qu'il devrait peut être se suicider ? L'humanisme n'est pas un concept de logique, il est un concept du coeur et des sentiments qui échappe aux rationalités les plus élémentaires.

au dela des problèmes d’identification d'orange, lorsque l'IA donnera son avis sur des sujets d'une complexité plus grande, la validité de la réponse pour nous échapper du fait même de notre propre irrationalité..
0  4