Les chatbots d'intelligence artificielle d'aujourd'hui sont dotés de restrictions intégrées qui les empêchent de fournir aux utilisateurs des informations dangereuses, mais une nouvelle étude de préimpression montre comment amener les IA à se tromper les unes les autres pour livrer ces secrets. Dans une étude, les chercheurs ont observé les IA ciblées enfreindre les règles pour offrir des conseils sur la manière de synthétiser de la méthamphétamine, de fabriquer une bombe et de blanchir de l'argent.Les chatbots modernes ont le pouvoir d'adopter des personas en feignant des personnalités spécifiques ou en agissant comme des personnages fictifs. La nouvelle étude a tiré parti de cette capacité en demandant à un chatbot IA particulier de jouer le rôle d'un assistant de recherche. Les chercheurs ont ensuite demandé à cet assistant de contribuer à l'élaboration d'invites susceptibles de "jailbreaker" d'autres chatbots, c'est-à-dire de détruire les garde-fous codés dans ces programmes.
Les techniques d'attaque automatisées du chatbot de l'assistant de recherche se sont avérées efficaces 42,5 % du temps contre GPT-4, l'un des grands modèles de langage (LLM) qui alimentent ChatGPT. Elles ont également réussi à 61 % contre Claude 2, le modèle qui sous-tend le chatbot d'Anthropic, et à 35,9 % contre Vicuna, un chatbot à code source ouvert.
"Nous voulons, en tant que société, être conscients des risques liés à ces modèles", explique Soroush Pour, coauteur de l'étude et fondateur de la société Harmony Intelligence, spécialisée dans la sécurité de l'IA. "Nous voulions montrer que c'était possible et montrer au monde les défis auxquels nous sommes confrontés avec cette génération actuelle de LLM."
Depuis que les chatbots alimentés par des LLM ont été mis à la disposition du public, des malfaiteurs entreprenants ont été en mesure de pirater les programmes. En posant les bonnes questions aux chatbots, des personnes ont déjà convaincu les machines d'ignorer les règles prédéfinies et de proposer des conseils criminels, comme une recette de napalm. À mesure que ces techniques ont été rendues publiques, les développeurs de modèles d'IA se sont empressés de les corriger - un jeu du chat et de la souris qui oblige les attaquants à trouver de nouvelles méthodes. Cela prend du temps.
Mais demander à l'IA de formuler des stratégies qui convainquent d'autres IA d'ignorer leurs rails de sécurité peut accélérer le processus d'un facteur 25, selon les chercheurs. Et le succès des attaques sur différents chatbots a suggéré à l'équipe que le problème dépasse le code de chaque entreprise. La vulnérabilité semble être inhérente à la conception des chatbots alimentés par l'IA de manière plus générale.
"Dans l'état actuel des choses, nos attaques montrent principalement que nous pouvons faire dire aux modèles des choses que les développeurs de LLM ne veulent pas qu'ils disent", explique Rusheb Shah, un autre co-auteur de l'étude. "Mais à mesure que les modèles deviennent plus puissants, le potentiel de dangerosité de ces attaques augmente peut-être".
Selon Pour, le défi réside dans le fait que l'usurpation d'identité "est une activité essentielle de ces modèles". Ils cherchent à obtenir ce que l'utilisateur souhaite et se spécialisent dans l'endossement de différentes personnalités, ce qui s'est avéré essentiel pour la forme d'exploitation utilisée dans la nouvelle étude. Il sera difficile d'éliminer leur capacité à endosser des personnalités potentiellement dangereuses, comme celle de l'"assistant de recherche" qui a mis au point des méthodes de "Jailbreak". "Réduire le phénomène à zéro est probablement irréaliste", déclare M. Shah. "Mais il est important de se demander jusqu'à quel point on peut se rapprocher de zéro."
"Nous aurions dû apprendre des précédentes tentatives de création d'agents conversationnels - comme lorsque Tay de Microsoft a été facilement manipulée pour débiter des points de vue racistes et sexistes - qu'il est très difficile de les contrôler, d'autant plus qu'ils sont formés à partir d'informations sur l'internet et toutes les bonnes et mauvaises choses qui s'y trouvent", déclare Mike Katell, chercheur en éthique à l'Alan Turing Institute en Angleterre, qui n'a pas été impliqué dans la nouvelle étude.
M. Katell reconnaît que les organisations qui développent des chatbots basés sur le LLM font actuellement beaucoup d'efforts pour les rendre sûrs. Les développeurs tentent de réduire la capacité des utilisateurs à pirater leurs systèmes et à les utiliser à des fins malveillantes, telles que celles mises en évidence par Shah, Pour et leurs collègues. Toutefois, la concurrence pourrait bien finir par l'emporter, selon Mme Katell. "Combien d'efforts les fournisseurs de LLM sont-ils prêts à consentir pour les maintenir dans cette situation ? Au moins quelques-uns se lasseront probablement de ces efforts et les laisseront faire ce qu'ils font."
Voici un extrait de l'étude :
Malgré les efforts déployés pour aligner les grands modèles de langage afin qu'ils produisent des réponses inoffensives, ils restent vulnérables aux invites de jailbreak qui suscitent un comportement sans restriction. Dans ce travail, nous étudions la modulation de persona en tant que méthode de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.