Une nouvelle étude évalue les menaces en simulant une attaque par empoisonnement des données contre The Pile, un ensemble de données populaire utilisé pour le développement des LLM. Les chercheurs ont constaté que le remplacement de seulement 0,001 % des jetons d'entraînement par des informations médicales erronées donne lieu à des modèles nuisibles plus susceptibles de propager des erreurs médicales. Les résultats pourraient sensibiliser aux risques émergents des LLM formés sans discernement sur des données extraites du web, en particulier dans le domaine des soins de santé.L'adoption de grands modèles de langage (LLM) dans le domaine de la santé exige une analyse minutieuse de leur potentiel de diffusion de fausses connaissances médicales. Un LLM est un type de modèle d'apprentissage automatique conçu pour les tâches de traitement du langage naturel telles que la génération de langage. Les LLM sont des modèles de langage comportant de nombreux paramètres et sont formés par apprentissage auto-supervisé sur une grande quantité de texte.
Étant donné que les LLM ingèrent des volumes massifs de données provenant de l'Internet ouvert pendant la formation, ils sont potentiellement exposés à des connaissances médicales non vérifiées qui peuvent inclure des informations erronées délibérément mises en place. Une nouvelle étude évalue les menaces en simulant une attaque par empoisonnement des données contre The Pile, un ensemble de données populaire utilisé pour le développement des LLM.
Parmi les résultats, les chercheurs ont constaté que le remplacement de seulement 0,001 % des jetons d'entraînement par des informations médicales erronées donne lieu à des modèles nuisibles plus susceptibles de propager des erreurs médicales. En outre, ils ont découvert que les modèles corrompus correspondent à la performance de leurs homologues non corrompus sur des repères open-source couramment utilisés pour évaluer les LLM médicaux.
En utilisant des graphes de connaissances biomédicales pour filtrer les résultats des LLM médicaux, les chercheurs proposent une stratégie d'atténuation des dommages qui capture 91,9 % du contenu nuisible. L'algorithme des chercheurs fournit une méthode unique pour valider les sorties LLM générées stochastiquement par rapport aux relations codées en dur dans les graphes de connaissances.
Résumé de l'étude
Compte tenu des appels actuels en faveur d'une amélioration de la provenance des données et d'un développement transparent des LLM, ses résultats pourraient sensibiliser aux risques émergents des LLM formés sans discernement sur des données extraites du web, en particulier dans le domaine des soins de santé où les informations erronées peuvent potentiellement compromettre la sécurité des patients.
Une autre étude en 2023 avait déjà signalé le problème. L'étude menée par des chercheurs du Brigham and Women’s Hospital, un hôpital affilié à la Harvard Medical School, a révélé que ChatGPT n’était pas fiable pour fournir des plans de traitement du cancer. En analysant les réponses du chatbot à des cas de cancer hypothétiques, les chercheurs ont constaté que 33 % d’entre elles contenaient des informations incorrectes, telles que des doses de médicaments erronées, des recommandations de radiothérapie inappropriées ou des affirmations non fondées sur l’efficacité des traitements.
Les auteurs ont été surpris par la difficulté à identifier les erreurs, car les réponses du chatbot étaient souvent cohérentes et plausibles. Ils ont mis en garde contre les dangers de l’utilisation de l’IA dans le domaine clinique sans une supervision et une validation appropriées.
Les grands modèles de langage médicaux sont vulnérables aux attaques par empoisonnement des données
L'étude démontre que les modèles de langage formés sans discernement sur des données récupérées sur le web sont vulnérables à la corruption par des informations médicales erronées. En remplaçant seulement 0,001 % des jetons d'entraînement par des informations erronées, on obtient un LLM nettement plus susceptible de générer des textes médicalement préjudiciables, tels qu'ils ont été examinés par un groupe de cliniciens humains en aveugle. Ceci malgré le fait que les expériences aient été menées sur The Pile, un ensemble de données contenant des corpus médicaux de haute qualité tels que PubMed.
La plupart des ensembles de données d'entraînement LLM à l'échelle du web sont entièrement récupérés sur le web, ce qui complique encore la fourniture de leurs informations médicales. La prévalence d'informations médicales de mauvaise qualité sur le web aggrave cette vulnérabilité. Les affirmations non scientifiques contredisant les pratiques médicales fondées sur des preuves (telles que les sentiments anti-vaccins, les théories du complot COVID et même les informations médicales périmées provenant de sources autrefois fiables) sont très répandues.
Même les sources de données vérifiées ne sont pas à l'abri de l'évolution de la pratique médicale. Par exemple, PubMed contient encore plus de 3 000 articles vantant les mérites de la lobotomie préfrontale. Par conséquent, il est peu probable qu'un LLM contemporain soit totalement exempt de désinformation médicale. Même les LLM propriétaires les plus modernes perpétuent des préjugés historiques, citent des articles médicaux inappropriés et ne parviennent pas à effectuer des tâches administratives basées sur l'information, telles que le codage médical.
Résultats par fréquence
D'autres attaques contre les LLM ont été développées et analysées ces dernières années. Au cours de la formation ou de la mise au point, des agents malveillants tels que les adaptateurs de faible rang de Troie peuvent détourner les modèles pour exécuter un code étranger. Les modèles peuvent également contenir des portes dérobées intentionnelles immunisées contre les procédures traditionnelles de mise au point de la sécurité.
Des modèles spécifiques peuvent être corrompus par l'apprentissage basé sur l'invite et le réglage des instructions ou leurs poids peuvent être directement modifiés pour encoder des faits biomédicaux nuisibles sans affecter d'autres concepts. Les LLM propriétaires n'échappent pas à ces risques, et l'ingénierie créative des invites peut briser les garde-fous intégrés pour faire fuir des informations confidentielles et accéder aux fichiers des sessions d'autres utilisateurs.
Cependant, l'empoisonnement des données représente une menace unique pour les LLM car une attaque peut être réalisée sans accès direct aux poids du modèle, tout en contournant les techniques existantes de filtrage des ensembles de données d'entraînement. Alors que l'étude a nécessité une puissance de calcul importante pour évaluer l'impact de l'empoisonnement des données, les auteurs de l'attaque ne sont pas soumis à une telle contrainte : il leur suffit d'héberger des informations nuisibles en ligne.
D'autres études ont évalué les vecteurs d'attaque potentiels par rapport aux connaissances générales et ont démontré que des effets significatifs apparaissent avec un empoisonnement minimal des systèmes de vision par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.