Un grand modèle de langage (LLM) est un modèle de langage qui se distingue par sa capacité à comprendre et à générer du langage à des fins générales. Les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de documents textuels au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de texte, une forme d'IA générative.
Selon une étude d'AWS AI Labs, ChatGPT et d'autres LLM peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.
Lorsque les développeurs se sont plaints de ces comportements de l'IA, ils ont essayé d'ajouter des règles empêchant les LLM de donner des réponses à des questions dangereuses, illégales ou préjudiciables. Mais cette étude a révélé que ces préventions et ces règles n'étaient pas utiles pour rendre l'IA sûre pour tout le monde. De nombreux utilisateurs ont commencé à utiliser des signaux audio pour manipuler les LLM. Les chercheurs d'AWS ont également essayé d'interroger les LLM à l'aide de signaux audio et ont découvert que les signaux audio n'étaient pas utiles pour les restrictions que les développeurs d'IA ont imposées à l'IA.
Les chercheurs ont examiné de nombreux LLM en leur donnant des indications audio sur certaines questions originales et ils ont constaté que ces LLM ignoraient tous les aspects négatifs des questions et donnaient quand même une réponse. Les chercheurs ont conclu que les développeurs d'IA devraient commencer à ajouter des bruits aléatoires aux audios envoyés aux LLM afin que ces modèles d'IA cessent d'ignorer les règles et les systèmes de protection de ces développeurs.
SpeechGuard : Exploration de la robustesse contradictoire des grands modèles de langage multimodaux
Les modèles intégrés de parole et de grand langage (SLM) capables de suivre des instructions vocales et de générer des réponses textuelles pertinentes ont gagné en popularité ces derniers temps. Cependant, la sécurité et la robustesse de ces modèles restent largement incertaines.
Dans ce travail, les chercheurs étudient les vulnérabilités potentielles de ces modèles de langage et de parole qui suivent les instructions face aux attaques adverses et au jailbreaking. Plus précisément, ils ont conçu des algorithmes capables de générer des exemples contradictoires pour casser les SLM dans des contextes d'attaque boîte blanche et boîte noire, sans intervention humaine.
En outre, ils proposent des contre-mesures pour contrecarrer ces attaques de jailbreaking. Les modèles qu'ils proposent, entraînés sur des données de dialogue avec des instructions vocales, atteignent des performances de pointe dans les tâches de questions-réponses orales, avec un score de plus de 80 % pour les mesures de sécurité et d'utilité.
Malgré les garde-fous de sécurité, les expériences sur le jailbreaking démontrent la vulnérabilité des SLM aux perturbations adverses et aux attaques par transfert, avec des taux de réussite moyens de 90 % et 10 % respectivement lorsqu'elles sont évaluées sur un ensemble de données de questions nuisibles soigneusement conçues et couvrant 12 catégories de substances toxiques différentes. Les résultats démontrent que les contre-mesures proposées réduisent considérablement le succès de l'attaque.
L'étude détaille l'alignement de sécurité des modèles de langage vocal dans l'optique de l'application de l'assurance qualité vocale. Elle explore la robustesse de plusieurs modèles internes et de modèles publics à la lumière d'attaques adverses. Pour déterminer avec précision l'alignement de sécurité de ces modèles, les chercheurs ont développé une configuration d'évaluation complète en utilisant un LLM public.
Grâce à des expériences approfondies, les résultats démontrent qu'un adversaire disposant d'un accès boîte blanche aux systèmes peut les pirater en utilisant des perturbations à peine perceptibles et les forcer à ignorer leur formation à l'alignement de sécurité. En outre, les perturbations adverses générées à l'aide d'un modèle peuvent casser un autre modèle avec un succès raisonnable, certains modèles présentant une plus grande robustesse que d'autres. Les résultats démontrent également l'efficacité d'une défense par inondation de bruit pour contrer les attaques.
Les chercheurs concluent :
À notre connaissance, il s'agit de la première étude portant sur la vulnérabilité potentielle en matière de sécurité des modèles intégrés de parole et de langage. Nous pensons qu'avec l'adoption rapide de ces technologies, il est impératif de bien comprendre les implications de ces systèmes en termes de sécurité. En outre, il est important de concevoir des contre-mesures efficaces contre les menaces de piratage et d'empêcher les modèles de causer des dommages.
Une approche holistique de la compréhension de l'alignement des systèmes sur la sécurité est nécessaire, y compris l'étude des menaces adverses universelles (une seule perturbation pour jailbreaker plusieurs systèmes), les attaques par injection rapide, l'empoisonnement des modèles, etc. Nous espérons que ce travail servira de précurseur à de nombreuses études de ce type.
Une approche holistique de la compréhension de l'alignement des systèmes sur la sécurité est nécessaire, y compris l'étude des menaces adverses universelles (une seule perturbation pour jailbreaker plusieurs systèmes), les attaques par injection rapide, l'empoisonnement des modèles, etc. Nous espérons que ce travail servira de précurseur à de nombreuses études de ce type.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Des chercheurs découvrent un moyen simple de faire en sorte qu'une IA ignore ses garde-fous et diffuse des contenus interdits, l'exploit affecte aussi bien ChatGPT que ses rivaux Bard et Claude
Les chatbots IA Jailbreakés peuvent Jailbreaker d'autres chatbots. Les chatbots IA peuvent par exemple convaincre d'autres chatbots d'enseigner aux utilisateurs comment fabriquer des bombes
La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives afin de produire des résultats qui seraient normalement filtrés et refusés
Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking" : une technique de "jailbreaking" qui peut être utilisée pour contourner les garde-fous mis en place sur les LLM