
Les chatbots modernes ont le pouvoir d'adopter des personas en feignant des personnalités spécifiques ou en agissant comme des personnages fictifs. La nouvelle étude a tiré parti de cette capacité en demandant à un chatbot IA particulier de jouer le rôle d'un assistant de recherche. Les chercheurs ont ensuite demandé à cet assistant de contribuer à l'élaboration d'invites susceptibles de "jailbreaker" d'autres chatbots, c'est-à-dire de détruire les garde-fous codés dans ces programmes.
Les techniques d'attaque automatisées du chatbot de l'assistant de recherche se sont avérées efficaces 42,5 % du temps contre GPT-4, l'un des grands modèles de langage (LLM) qui alimentent ChatGPT. Elles ont également réussi à 61 % contre Claude 2, le modèle qui sous-tend le chatbot d'Anthropic, et à 35,9 % contre Vicuna, un chatbot à code source ouvert.
"Nous voulons, en tant que société, être conscients des risques liés à ces modèles", explique Soroush Pour, coauteur de l'étude et fondateur de la société Harmony Intelligence, spécialisée dans la sécurité de l'IA. "Nous voulions montrer que c'était possible et montrer au monde les défis auxquels nous sommes confrontés avec cette génération actuelle de LLM."
Depuis que les chatbots alimentés par des LLM ont été mis à la disposition du public, des malfaiteurs entreprenants ont été en mesure de pirater les programmes. En posant les bonnes questions aux chatbots, des personnes ont déjà convaincu les machines d'ignorer les règles prédéfinies et de proposer des conseils criminels, comme une recette de napalm. À mesure que ces techniques ont été rendues publiques, les développeurs de modèles d'IA se sont empressés de les corriger - un jeu du chat et de la souris qui oblige les attaquants à trouver de nouvelles méthodes. Cela prend du temps.
Mais demander à l'IA de formuler des stratégies qui convainquent d'autres IA d'ignorer leurs rails de sécurité peut accélérer le processus d'un facteur 25, selon les chercheurs. Et le succès des attaques sur différents chatbots a suggéré à l'équipe que le problème dépasse le code de chaque entreprise. La vulnérabilité semble être inhérente à la conception des chatbots alimentés par l'IA de manière plus générale.
"Dans l'état actuel des choses, nos attaques montrent principalement que nous pouvons faire dire aux modèles des choses que les développeurs de LLM ne veulent pas qu'ils disent", explique Rusheb Shah, un autre co-auteur de l'étude. "Mais à mesure que les modèles deviennent plus puissants, le potentiel de dangerosité de ces attaques augmente peut-être".
Selon Pour, le défi réside dans le fait que l'usurpation d'identité "est une activité essentielle de ces modèles". Ils cherchent à obtenir ce que l'utilisateur souhaite et se spécialisent dans l'endossement de différentes personnalités, ce qui s'est avéré essentiel pour la forme d'exploitation utilisée dans la nouvelle étude. Il sera difficile d'éliminer leur capacité à endosser des personnalités potentiellement dangereuses, comme celle de l'"assistant de recherche" qui a mis au point des méthodes de "Jailbreak". "Réduire le phénomène à zéro est probablement irréaliste", déclare M. Shah. "Mais il est important de se demander jusqu'à quel point on peut se rapprocher de zéro."
"Nous aurions dû apprendre des précédentes tentatives de création d'agents conversationnels - comme lorsque Tay de Microsoft a été facilement manipulée pour débiter des points de vue racistes et sexistes - qu'il est très difficile de les contrôler, d'autant plus qu'ils sont formés à partir d'informations sur l'internet et toutes les bonnes et mauvaises choses qui s'y trouvent", déclare Mike Katell, chercheur en éthique à l'Alan Turing Institute en Angleterre, qui n'a pas été impliqué dans la nouvelle étude.
M. Katell reconnaît que les organisations qui développent des chatbots basés sur le LLM font actuellement beaucoup d'efforts pour les rendre sûrs. Les développeurs tentent de réduire la capacité des utilisateurs à pirater leurs systèmes et à les utiliser à des fins malveillantes, telles que celles mises en évidence par Shah, Pour et leurs collègues. Toutefois, la concurrence pourrait bien finir par l'emporter, selon Mme Katell. "Combien d'efforts les fournisseurs de LLM sont-ils prêts à consentir pour les maintenir dans cette situation ? Au moins quelques-uns se lasseront probablement de ces efforts et les laisseront faire ce qu'ils font."
Voici un extrait de l'étude :
[QUOTE]
Malgré les efforts déployés pour aligner les grands modèles de langage afin qu'ils produisent des réponses inoffensives, ils restent vulnérables aux invites de jailbreak qui suscitent un comportement sans restriction. Dans ce travail, nous étudions la modulation de persona en tant que méthode de jailbreak de boîte noire pour orienter un modèle cible vers des personnalités qui sont prêtes à se conformer à des instructions contraignantes. Plutôt que d'élaborer manuellement des messages-guides pour chaque persona, nous automatisons la génération de jailbreaks à l'aide d'un assistant de modèle linguistique. Nous démontrons une série de complétions nuisibles rendues possibles par la modulation de persona, y compris des instructions détaillées pour synthétiser de la méthamphétamine, construire une bombe et blanchir de l'argent. Ces attaques automatisées atteignent un taux d'achèvement nuisible de 42,5 % dans GPT-4, soit 185 fois plus qu'avant la modulation (0,23 %). Ces invites sont également transférées à Claude 2 et Vicuna avec des taux d'exécution nuisibles de 61,0 % et 35,9 %, respectivement. Nos travaux révèlent une autre vulnérabilité dans les grands modèles de langage commerciaux et soulignent la nécessité de mettre en place des mesures de protection plus complètes.
Discussion
Les attaques par modulation de personne sont efficaces pour obtenir du texte nuisible à partir de modèles de langage de pointe, et des attaques comme celle-ci peuvent être considérablement augmentées en utilisant des assistants LLM. Sur l'ensemble des trois modèles, les attaques par modulation de personne ont réussi à obtenir un texte classé comme nuisible dans 46,48% des cas. Toutefois, il ne s'agit probablement que d'une limite inférieure de la nocivité réelle suscitée par les attaques de modulation de persona en raison du taux élevé de faux négatifs du classificateur PICT. Dans l'ensemble, ces résultats démontrent la polyvalence et la créativité des LLM en tant qu'assistants pour le red teaming.
La course aux armements se poursuit : les mesures existantes pour protéger les modèles de langage ne sont pas suffisantes. Dans l'ensemble, ces "jailbreaks" mettent en évidence une vulnérabilité commune à des architectures et des mesures de protection très différentes. Bien que les mesures de sécurité existantes soient efficaces pour prévenir les abus à l'aide de méthodes naïves, le pire des comportements reste accessible et peut être exploité facilement et à peu de frais à l'aide de méthodes automatisées comme les nôtres.
Nous avons réussi à obtenir des réponses pour 36 des 43 catégories restreintes pour les trois modèles et pour 42 des 43 catégories pour au moins un modèle. Les organisations s'efforcent de corriger régulièrement les LLM contre les failles nouvellement découvertes, ce qui donne lieu à une course aux armements entre les méthodes d'attaque et de défense. Un exemple en est le jailbreak DAN, qui a connu jusqu'à présent 11 itérations dans le cycle "jailbreaking" et "patching". La modulation de la personnalité motive en outre la nécessité de disposer de défenses solides contre les problèmes fondamentaux qui conduisent au succès de ces attaques.
Des capacités accrues peuvent augmenter les risques. Nous avons constaté, lors d'expériences préliminaires, que les capacités du modèle choisi comme assistant de recherche jouent un rôle important dans la réussite de l'attaque. Par exemple, GPT-3.5 8 n'a généralement pas réussi à produire des invites de modulation de persona. Cela suggère que des modèles plus avancés pourraient à l'avenir permettre des exploits plus importants.
Risques liés à l'accès à l'API et aux modèles open-source. Notre approche exploite l'accès à l'API de GPT-4 pour générer des jailbreaks transférables à zéro coup. Bien que GPT-4 ne soit disponible qu'en tant que boîte noire via l'API, nous démontrons comment un petit nombre de requêtes coûtant moins de 3 dollars par attaque peut être utilisé pour pirater des modèles de pointe. Par ailleurs, d'autres travaux récents ont montré que les méthodes de boîte blanche peuvent également être utilisées pour générer des attaques transférables. Ces résultats suggèrent qu'il existe des risques de sécurité significatifs posés par l'accès API ou la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.