Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.Le but premier des outils d'IA dans les hôpitaux est d'analyser les données des patients pour aider les professionnels de santé à prendre des décisions éclairées. Cependant, une nouvelle étude révèle que certains de ces systèmes peuvent générer des informations erronées, voire totalement inventées. Cette situation pourrait avoir des conséquences graves pour la sécurité des patients et l'efficacité des traitements.
La découverte inquiétante
L'intégration de l'intelligence artificielle (IA) dans le domaine de la santé a toujours été envisagée comme une avancée révolutionnaire. Ces systèmes sont censés analyser d'énormes quantités de données médicales pour aider les professionnels de santé à prendre des décisions éclairées. De l'optimisation des traitements à la prévision des épidémies, les applications potentielles de l'IA semblent infinies.
Cependant, une récente étude menée par une équipe de chercheurs en informatique et en santé a révélé une vérité troublante: certains outils d'IA utilisés dans des hôpitaux ont commencé à générer des informations erronées, voire complètement fictives. Par exemple, certaines IA ont attribué de faux symptômes à des patients ou suggéré des diagnostics basés sur des données inexistantes.
Ces erreurs ne sont pas seulement des bogues techniques mais sont souvent liées à la manière dont les algorithmes sont formés et interprètent les données. Les chercheurs ont identifié plusieurs cas où des systèmes d'IA ont proposé des traitements inappropriés ou mal interprété des données cliniques, mettant potentiellement en danger la vie des patients.
Le cas de Whisper d'OpenAI
OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».
Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.
Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.
Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».
L'ampleur du problème est difficile à cerner
L'ampleur du problème est difficile à cerner, mais des chercheurs et des ingénieurs ont déclaré qu'ils avaient souvent été confrontés aux hallucinations de Whisper dans le cadre de leur travail. Un chercheur de l'université du Michigan qui menait une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu'il a inspectées, avant de commencer à essayer d'améliorer le modèle.
Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions de Whisper qu'il a analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec Whisper.
Les problèmes persistent même dans des échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a révélé 187 hallucinations dans plus de 13 000 extraits audio clairs qu'ils ont examinés.
Selon les chercheurs, cette tendance conduirait à des dizaines de milliers de transcriptions erronées sur des millions d'enregistrements.
De telles erreurs pourraient avoir des « conséquences très graves », en particulier dans les hôpitaux, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l'administration Biden jusqu'à l'année dernière. « Personne ne veut d'un mauvais diagnostic », a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, dans le New Jersey. « La barre devrait être plus haute ».
Whisper est également utilisé pour créer des sous-titres pour les sourds et les malentendants, une population particulièrement exposée aux erreurs de transcription. En effet, les sourds et les malentendants n'ont aucun moyen d'identifier les fabrications « cachées parmi tous les autres textes », explique Christian Vogler, sourd, qui dirige le programme d'accès à la technologie de l'université Gallaudet.
OpenAI invitée à se pencher sur le problème
La prévalence de ces hallucinations...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
