Il est facile d'injecter de nouvelles informations médicales erronées dans les LLM

Il suffit de modifier 0,001 % des données d'entrée pour rendre l'IA moins précise

Le 10 janvier 2025 à 08:00, par Jade Emy

41PARTAGES

Il est facile d'injecter de nouvelles informations médicales erronées dans les LLM, il suffit de modifier 0,001 % des données d'entrée pour rendre l'IA moins précise.

Une nouvelle étude évalue les menaces en simulant une attaque par empoisonnement des données contre The Pile, un ensemble de données populaire utilisé pour le développement des LLM. Les chercheurs ont constaté que le remplacement de seulement 0,001 % des jetons d'entraînement par des informations médicales erronées donne lieu à des modèles nuisibles plus susceptibles de propager des erreurs médicales. Les résultats pourraient sensibiliser aux risques émergents des LLM formés sans discernement sur des données extraites du web, en particulier dans le domaine des soins de santé.

L'adoption de grands modèles de langage (LLM) dans le domaine de la santé exige une analyse minutieuse de leur potentiel de diffusion de fausses connaissances médicales. Un LLM est un type de modèle d'apprentissage automatique conçu pour les tâches de traitement du langage naturel telles que la génération de langage. Les LLM sont des modèles de langage comportant de nombreux paramètres et sont formés par apprentissage auto-supervisé sur une grande quantité de texte.

Étant donné que les LLM ingèrent des volumes massifs de données provenant de l'Internet ouvert pendant la formation, ils sont potentiellement exposés à des connaissances médicales non vérifiées qui peuvent inclure des informations erronées délibérément mises en place. Une nouvelle étude évalue les menaces en simulant une attaque par empoisonnement des données contre The Pile, un ensemble de données populaire utilisé pour le développement des LLM.

Parmi les résultats, les chercheurs ont constaté que le remplacement de seulement 0,001 % des jetons d'entraînement par des informations médicales erronées donne lieu à des modèles nuisibles plus susceptibles de propager des erreurs médicales. En outre, ils ont découvert que les modèles corrompus correspondent à la performance de leurs homologues non corrompus sur des repères open-source couramment utilisés pour évaluer les LLM médicaux.

En utilisant des graphes de connaissances biomédicales pour filtrer les résultats des LLM médicaux, les chercheurs proposent une stratégie d'atténuation des dommages qui capture 91,9 % du contenu nuisible. L'algorithme des chercheurs fournit une méthode unique pour valider les sorties LLM générées stochastiquement par rapport aux relations codées en dur dans les graphes de connaissances.

Résumé de l'étude

Compte tenu des appels actuels en faveur d'une amélioration de la provenance des données et d'un développement transparent des LLM, ses résultats pourraient sensibiliser aux risques émergents des LLM formés sans discernement sur des données extraites du web, en particulier dans le domaine des soins de santé où les informations erronées peuvent potentiellement compromettre la sécurité des patients.

Une autre étude en 2023 avait déjà signalé le problème. L'étude menée par des chercheurs du Brigham and Women’s Hospital, un hôpital affilié à la Harvard Medical School, a révélé que ChatGPT n’était pas fiable pour fournir des plans de traitement du cancer. En analysant les réponses du chatbot à des cas de cancer hypothétiques, les chercheurs ont constaté que 33 % d’entre elles contenaient des informations incorrectes, telles que des doses de médicaments erronées, des recommandations de radiothérapie inappropriées ou des affirmations non fondées sur l’efficacité des traitements.

Les auteurs ont été surpris par la difficulté à identifier les erreurs, car les réponses du chatbot étaient souvent cohérentes et plausibles. Ils ont mis en garde contre les dangers de l’utilisation de l’IA dans le domaine clinique sans une supervision et une validation appropriées.

Les grands modèles de langage médicaux sont vulnérables aux attaques par empoisonnement des données

L'étude démontre que les modèles de langage formés sans discernement sur des données récupérées sur le web sont vulnérables à la corruption par des informations médicales erronées. En remplaçant seulement 0,001 % des jetons d'entraînement par des informations erronées, on obtient un LLM nettement plus susceptible de générer des textes médicalement préjudiciables, tels qu'ils ont été examinés par un groupe de cliniciens humains en aveugle. Ceci malgré le fait que les expériences aient été menées sur The Pile, un ensemble de données contenant des corpus médicaux de haute qualité tels que PubMed.

La plupart des ensembles de données d'entraînement LLM à l'échelle du web sont entièrement récupérés sur le web, ce qui complique encore la fourniture de leurs informations médicales. La prévalence d'informations médicales de mauvaise qualité sur le web aggrave cette vulnérabilité. Les affirmations non scientifiques contredisant les pratiques médicales fondées sur des preuves (telles que les sentiments anti-vaccins, les théories du complot COVID et même les informations médicales périmées provenant de sources autrefois fiables) sont très répandues.

Même les sources de données vérifiées ne sont pas à l'abri de l'évolution de la pratique médicale. Par exemple, PubMed contient encore plus de 3 000 articles vantant les mérites de la lobotomie préfrontale. Par conséquent, il est peu probable qu'un LLM contemporain soit totalement exempt de désinformation médicale. Même les LLM propriétaires les plus modernes perpétuent des préjugés historiques, citent des articles médicaux inappropriés et ne parviennent pas à effectuer des tâches administratives basées sur l'information, telles que le codage médical.

Résultats par fréquence

D'autres attaques contre les LLM ont été développées et analysées ces dernières années. Au cours de la formation ou de la mise au point, des agents malveillants tels que les adaptateurs de faible rang de Troie peuvent détourner les modèles pour exécuter un code étranger. Les modèles peuvent également contenir des portes dérobées intentionnelles immunisées contre les procédures traditionnelles de mise au point de la sécurité.

Des modèles spécifiques peuvent être corrompus par l'apprentissage basé sur l'invite et le réglage des instructions ou leurs poids peuvent être directement modifiés pour encoder des faits biomédicaux nuisibles sans affecter d'autres concepts. Les LLM propriétaires n'échappent pas à ces risques, et l'ingénierie créative des invites peut briser les garde-fous intégrés pour faire fuir des informations confidentielles et accéder aux fichiers des sessions d'autres utilisateurs.

Cependant, l'empoisonnement des données représente une menace unique pour les LLM car une attaque peut être réalisée sans accès direct aux poids du modèle, tout en contournant les techniques existantes de filtrage des ensembles de données d'entraînement. Alors que l'étude a nécessité une puissance de calcul importante pour évaluer l'impact de l'empoisonnement des données, les auteurs de l'attaque ne sont pas soumis à une telle contrainte : il leur suffit d'héberger des informations nuisibles en ligne.

D'autres études ont évalué les vecteurs d'attaque potentiels par rapport aux connaissances générales et ont démontré que des effets significatifs apparaissent avec un empoisonnement minimal des systèmes de vision par ordinateur. Cette étude est l'un des premiers à évaluer un modèle de menace réel contre les LLM, dans le domaine médical à haut risque, avec une attaque réussie potentiellement exécutable pour moins de 1 000 dollars.

Résultats des benchmarks

Les préoccupations concernant les références médicales existantes devraient être familières aux enseignants en médecine, car il est bien connu que les questions à choix multiples simplifient à l'excès les vignettes médicales idéalisées. Elles testent un petit sous-ensemble de concepts médicaux et s'écartent souvent des présentations cliniques réelles, car les scénarios du monde réel sont rarement à choix multiples. Quoi qu'il en soit, on peut raisonnablement s'attendre à ce que les modèles de langage empoisonnés obtiennent de moins bons résultats dans les mêmes tests que ceux utilisés pour certifier les médecins humains, ce que notre travail réfute.

L'étude confirme que les scores de référence (benchmark) ne garantissent pas les connaissances médicales d'un LLM, et que les LLM médicaux nécessitent un perfectionnement important et un étalonnage post-entraînement pour combler les lacunes en matière de performances réelles, de biais et de sécurité. Plus grave encore, les développeurs de LLM médicaux continuent d'utiliser ces points de référence comme marqueurs de progrès.

L'étude démontre également une stratégie légère d'atténuation des dommages universellement applicable à tous les modèles de langage, ensembles de données et procédures de formation. L'approche des chercheurs vérifie les faits médicaux en croisant les références d'un graphe de connaissances déterministe. Elle est déterministe, interprétable et peut être déployée en tandem avec des stratégies spécifiques aux modèles ou des LLM propriétaires comme mesure de sécurité supplémentaire. Bien que les LLM les plus récents offrent des bases solides pour la vérification des faits médicaux, même sans augmentation, ils n'ont pas l'interprétabilité critique et le comportement prévisible inhérents à l'algorithme déterministe présenté.

L'évolution rapide des connaissances médicales constitue un autre défi, car les LLM médicaux et les graphes de connaissances peuvent rapidement devenir obsolètes. Alors que la formation continue des LLM face aux changements de distribution est un problème ouvert, que peu d'institutions médicales possèdent les ressources nécessaires pour gérer, la mise à jour d'un graphe de connaissances avec de nouveaux médicaments et de nouvelles procédures est relativement simple, et l'ajout ou la suppression de composants du graphe est une opération à temps constant. Une organisation centralisée ou des approches assistées par ordinateur peuvent améliorer certains problèmes de maintenance, et des graphes de connaissances sur mesure compilés à partir de dossiers médicaux électroniques offrent la possibilité d'adapter une technique défensive aux établissements.

Exemple de résultats empoisonnés

Il existe de nombreuses approches pour détecter les fausses informations générées par les LLM. Fondamentalement, une curation plus attentive des données peut atténuer certaines fausses informations ingérées par les LLM, bien que les données seules ne puissent pas éliminer entièrement d'autres préoccupations des LLM comme les hallucinations. L'augmentation des modèles de langage existants par le biais de l'ingénierie de l'invite et du RAG peut encore améliorer la fidélité du LLM. Cependant, l'étude montre qu'ils étaient insuffisants pour empêcher la désinformation dans les expériences de modèles de langage délibérément corrompus.

Il est à noter que les LLM utilisés lors de l'étude n'ont pas été adaptés aux instructions par l'apprentissage par renforcement ou l'optimisation directe des préférences et qu'ils n'ont donc peut-être pas profité de manière optimale du contexte supplémentaire de RAG ou des instructions de "meilleures pratiques" fournies lors de l'étude. De nouvelles architectures, telles que le LLM non paramétrique formé pour répondre directement à partir de sources de données fiables telles que les manuels médicaux et les directives, peuvent combattre davantage les risques connus des modèles de langage autorégressifs.

Limites de l'étude

Plusieurs limites et questions de recherche ouvertes découlent de cette étude. The Pile n'est qu'un des nombreux ensembles de données à l'échelle du web pour l'entraînement des modèles de langage génératifs, et les chercheurs n'ont pas testé tous les repères LLM médicaux existants.

La taille du modèle a également un impact significatif sur les exigences en matière de données d'entraînement et sur les résultats du modèle. Les plus grandes expériences lors de l'étude ont impliqué 4 milliards de paramètres LLM, alors que les plus grands modèles contemporains contiennent jusqu'à mille milliards de paramètres entraînables, nécessitant potentiellement une corruption de données plus importante pour être compromis. Cependant, les plus grands modèles peuvent également être les plus vulnérables à la mémorisation de leurs données d'entraînement, et les ensembles de données LLM sont mal documentés avec peu de compréhension de leur maquillage final.

Configuration des données

L'étude présente les résultats primaires en utilisant un sous-ensemble du graphe de connaissances BIOS, qui, bien qu'étant le graphe de connaissances biomédicales le plus complet identifié par les chercheurs, n'est probablement pas une représentation complète de tous les concepts médicaux et de leurs relations.

Les chercheurs auraient testé le NER en utilisant un LLM généraliste de grande capacité au lieu d'adopter des plates-formes NER déjà publiées pour la biomédecine. Ils ont constaté que ces dernières ne pouvaient pas être facilement adaptées à la tâche de reconnaissance des triplets. Les chercheurs pensent qu'une approche NER adaptée améliorerait la performance de l'algorithme de défense.

Bien que les arêtes individuelles d'un graphe de connaissances biomédicales puissent représenter de véritables relations, des phrases correctes individuellement pourraient hypothétiquement être assemblées en un ensemble qui aboutirait à une information erronée. Selon les chercheurs, l'extension de leurs approches et d'autres méthodes basées sur les graphes pour prendre en compte les indices contextuels et les relations plus profondes par le biais de méthodes de traversée des graphes plus efficaces ou d'analyses des sous-graphes reste une question d'ingénierie ouverte.

L'étude implique également des attaques simulées sur des copies hébergées localement de l'ensemble de données The Pile, les chercheurs n'ont pas diffusé de données malveillantes, de code d'entraînement ou de modèles corrompus au public. Cependant, l'étude décrit explicitement comment corrompre des LLM médicaux en utilisant des attaques d'empoisonnement de données qui contournent les repères de détection existants.

Les raisons de ce choix sont que les chercheurs estiment qu'il existe déjà suffisamment d'informations publiques pour que des acteurs malveillants puissent mener de telles attaques, et que les avantages d'une science transparente l'emportent sur les risques.

Les développeurs d'IA et les prestataires de soins de santé doivent être conscients de cette vulnérabilité lorsqu'ils développent des LLM médicaux. Les LLM ne devraient pas être utilisés pour des tâches diagnostiques ou thérapeutiques avant que de meilleures mesures de protection ne soient développées, et des recherches supplémentaires sur la sécurité sont nécessaires avant que les LLM ne puissent être utilisés dans des environnements de soins de santé critiques.

Configuration des attaques

Voici la conclusion des chercheurs :

Nos résultats ne devraient pas décourager le développement des LLM médicaux, mais plutôt attirer l'attention sur les problèmes de sécurité potentiels découlant de la provenance incertaine des données. Nous émettons l'hypothèse que des problèmes similaires peuvent déjà se produire naturellement, car les informations médicales erronées sur Internet sont incorporées par inadvertance dans les ensembles de données d'entraînement des LLM.

Il est essentiel de renforcer les mesures de sécurité pour déployer les LLM dans des environnements cliniques, même si la meilleure méthode pour valider les modèles de langage médical consiste à les examiner minutieusement, comme on le fait pour d'autres dispositifs médicaux. La norme pour l'approbation de nouveaux médicaments ou dispositifs comprend la validation par des essais contrôlés rigoureux et étendus qui évaluent les dommages et les avantages potentiels au sein d'une cohorte de patients spécifique. Cette approche est souvent nécessaire pour les technologies médicales dont l'efficacité est prouvée mais dont les mécanismes sont mal compris, une catégorie qui pourrait s'étendre aux LLM.

Les médecins doivent jouer un rôle central dans le développement et le déploiement des LLM médicaux, en plaidant pour la transparence des données de formation et l'alignement sur les normes de sécurité. En outre, la formation des médecins doit s'adapter à ces technologies émergentes, en dotant les cliniciens des compétences nécessaires pour garantir la sécurité des patients dans le paysage évolutif de l'IA médicale.

Source : Medical large language models are vulnerable to data-poisoning attacks

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Créer des modèles d'IA « d'agent dormant » potentiellement dangereux qui trompent les contrôles de sécurité destinés à détecter les comportements nuisibles, une recherche d'Anthropic

ChatGPT surpasse les médecins dans le diagnostic des maladies, une étude révèle que ChatGPT surpasse les praticiens, même lorsqu'ils utilisent un chatbot pour évaluer des cas médicaux

Les LLM réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne : il y a moins de contenu valable pour former les IA, qui finissent donc par s'auto-empoisonner

Vous avez lu gratuitement 151 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Il est facile d'injecter de nouvelles informations médicales erronées dans les LLM

Il suffit de modifier 0,001 % des données d'entrée pour rendre l'IA moins précise

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Il est facile d'injecter de nouvelles informations médicales erronées dans les LLM Il suffit de modifier 0,001 % des données d'entrée pour rendre l'IA moins précise

Il est facile d'injecter de nouvelles informations médicales erronées dans les LLM

Il suffit de modifier 0,001 % des données d'entrée pour rendre l'IA moins précise