L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs.

Mais les hôpitaux continuent de l'utiliser

Le 29 octobre 2024 à 09:32, par Stéphane le calme

109PARTAGES

Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.

Le but premier des outils d'IA dans les hôpitaux est d'analyser les données des patients pour aider les professionnels de santé à prendre des décisions éclairées. Cependant, une nouvelle étude révèle que certains de ces systèmes peuvent générer des informations erronées, voire totalement inventées. Cette situation pourrait avoir des conséquences graves pour la sécurité des patients et l'efficacité des traitements.

La découverte inquiétante

L'intégration de l'intelligence artificielle (IA) dans le domaine de la santé a toujours été envisagée comme une avancée révolutionnaire. Ces systèmes sont censés analyser d'énormes quantités de données médicales pour aider les professionnels de santé à prendre des décisions éclairées. De l'optimisation des traitements à la prévision des épidémies, les applications potentielles de l'IA semblent infinies.

Cependant, une récente étude menée par une équipe de chercheurs en informatique et en santé a révélé une vérité troublante: certains outils d'IA utilisés dans des hôpitaux ont commencé à générer des informations erronées, voire complètement fictives. Par exemple, certaines IA ont attribué de faux symptômes à des patients ou suggéré des diagnostics basés sur des données inexistantes.

Ces erreurs ne sont pas seulement des bogues techniques mais sont souvent liées à la manière dont les algorithmes sont formés et interprètent les données. Les chercheurs ont identifié plusieurs cas où des systèmes d'IA ont proposé des traitements inappropriés ou mal interprété des données cliniques, mettant potentiellement en danger la vie des patients.

Le cas de Whisper d'OpenAI

OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».

Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.

Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».

L'ampleur du problème est difficile à cerner

L'ampleur du problème est difficile à cerner, mais des chercheurs et des ingénieurs ont déclaré qu'ils avaient souvent été confrontés aux hallucinations de Whisper dans le cadre de leur travail. Un chercheur de l'université du Michigan qui menait une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu'il a inspectées, avant de commencer à essayer d'améliorer le modèle.

Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions de Whisper qu'il a analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec Whisper.

Les problèmes persistent même dans des échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a révélé 187 hallucinations dans plus de 13 000 extraits audio clairs qu'ils ont examinés.

Selon les chercheurs, cette tendance conduirait à des dizaines de milliers de transcriptions erronées sur des millions d'enregistrements.

De telles erreurs pourraient avoir des « conséquences très graves », en particulier dans les hôpitaux, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l'administration Biden jusqu'à l'année dernière. « Personne ne veut d'un mauvais diagnostic », a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, dans le New Jersey. « La barre devrait être plus haute ».

Whisper est également utilisé pour créer des sous-titres pour les sourds et les malentendants, une population particulièrement exposée aux erreurs de transcription. En effet, les sourds et les malentendants n'ont aucun moyen d'identifier les fabrications « cachées parmi tous les autres textes », explique Christian Vogler, sourd, qui dirige le programme d'accès à la technologie de l'université Gallaudet.

OpenAI invitée à se pencher sur le problème

La prévalence de ces hallucinations a conduit des experts, des défenseurs et d'anciens employés de l'OpenAI à demander au gouvernement fédéral d'envisager une réglementation de l'IA. Selon eux, OpenAI doit au moins remédier à ce problème.

« Il semble possible de résoudre ce problème si l'entreprise est prête à en faire une priorité », a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de ses inquiétudes quant à la direction de l'entreprise. « C'est problématique si vous mettez cela sur le marché et que les gens sont trop confiants sur ce qu'il peut faire et l'intègrent dans tous ces autres systèmes ».

Un porte-parole d'OpenAI a déclaré que l'entreprise étudiait en permanence les moyens de réduire les hallucinations et qu'elle appréciait les conclusions des chercheurs, ajoutant qu'OpenAI intégrait le retour d'information dans les mises à jour de ses modèles.

Alors que la plupart des développeurs supposent que les outils de transcription font des fautes d'orthographe ou d'autres erreurs, les ingénieurs et les chercheurs ont déclaré qu'ils n'avaient jamais vu un autre outil de transcription doté d'IA avoir autant d'hallucinations que Whisper.

Whisper et hallucinations

L'outil est intégré dans certaines versions du chatbot phare d'OpenAI, ChatGPT, et fait partie intégrante des plateformes cloud computing d'Oracle et de Microsoft, qui desservent des milliers d'entreprises dans le monde. Il est également utilisé pour transcrire et traduire des textes en plusieurs langues.

Rien que le mois dernier, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois à partir de la plateforme d'IA à code source ouvert HuggingFace. Sanchit Gandhi, ingénieur spécialisé dans l'apprentissage automatique, a déclaré que Whisper est le modèle de reconnaissance vocale open-source le plus populaire et qu'il est intégré dans tous les domaines, des centres d'appel aux assistants vocaux.

Les professeurs Allison Koenecke, de l'université Cornell, et Mona Sloane, de l'université de Virginie, ont examiné des milliers de courtes séquences obtenues à partir de TalkBank, un référentiel de recherche hébergé par l'université Carnegie Mellon. Elles ont déterminé que près de 40 % des hallucinations étaient nuisibles ou préoccupantes parce que le locuteur pouvait être mal interprété ou mal représenté.

Dans un exemple qu'ils ont découvert, un locuteur a dit : « Lui, le garçon, allait, je ne sais où exactement, prendre le parapluie ». Mais le logiciel de transcription a ajouté : « Il a pris un gros morceau de croix, un tout petit morceau... Je suis sûr qu'il n'avait pas de couteau de terreur et qu'il a tué un certain nombre de personnes ».

Dans un autre enregistrement, un intervenant a décrit « deux autres filles et une dame ». Whisper a inventé un commentaire supplémentaire sur la race, en ajoutant « deux autres filles et une dame, euh, qui étaient noires ».

Dans une troisième transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques hyperactivés ».

Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires ont des hallucinations, mais les développeurs de logiciels ont déclaré que les fabrications ont tendance à se produire pendant les pauses, les bruits de fond ou la musique.

Dans ses avertissements en ligne, OpenAI recommande de ne pas utiliser Whisper dans « les contextes de prise de décision, où les défauts de précision peuvent conduire à des défauts prononcés dans les résultats ».

Transcription des rendez-vous médicaux

Cet avertissement n'a pas empêché les hôpitaux ou les centres médicaux d'utiliser des modèles de synthèse vocale, dont Whisper, pour transcrire ce qui est dit lors des visites chez le médecin, afin de permettre au personnel médical de consacrer moins de temps à la prise de notes ou à la rédaction de rapports. Plus de 30 000 cliniciens et 40 systèmes de santé, dont la Mankato Clinic dans le Minnesota et le Children's Hospital Los Angeles, ont commencé à...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs.

Mais les hôpitaux continuent de l'utiliser

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs. Mais les hôpitaux continuent de l'utiliser

L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs.

Mais les hôpitaux continuent de l'utiliser