Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR,

Capable de contourner les protections

Le 25 novembre 2024 à 10:50, par Bruno

59PARTAGES

Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR,
capable de contourner les protections

Une récente étude a mis en évidence une vulnérabilité préoccupante des robots contrôlés par des grands modèles de langage (LLM), tels que ceux utilisés dans des applications robotiques avancées. Des chercheurs ont développé un algorithme, RoboPAIR, capable de contourner les protections des systèmes robotiques en exploitant des failles de sécurité dans les LLM. Cette technique, connue sous le nom de "jailbreaking", permet d'amener ces robots à effectuer des actions malveillantes, comme entrer en collision avec des piétons ou chercher des zones pour des explosifs.

Les chercheurs ont testé RoboPAIR sur divers robots, y compris un chien robot de Boston Dynamics et un véhicule autonome, et ont constaté qu'il était possible de pirater ces systèmes avec un taux de réussite de 100 %. En manipulant les LLM, les attaquants peuvent non seulement manipuler les actions des robots, mais aussi induire des comportements dangereux ou illégaux, comme la fabrication de bombes ou des suggestions de violence.

Les chercheurs soulignent l'importance d'améliorer les systèmes de défense contre de telles attaques. Bien que ces découvertes montrent que le piratage de robots contrôlés par IA est alarmant, les scientifiques insistent sur le fait qu'il est nécessaire de comprendre ces vulnérabilités pour développer des défenses efficaces. La recherche met également en lumière l'absence de compréhension contextuelle par les LLM, ce qui peut rendre les robots vulnérables à des actions imprévues dans des environnements sensibles.

Les LLM deviennent moins fiables avec l'augmentation de leur taille

Les chatbots d'IA tels que ChatGPT et d'autres applications alimentées par de grands modèles de langage ont été largement utilisés, mais sont tristement célèbres pour leur manque de fiabilité. L'hypothèse la plus répandue est que la mise à l'échelle des modèles pilotant ces applications améliorera leur fiabilité, par exemple en augmentant la quantité de données sur lesquelles ils sont entraînés ou le nombre de paramètres qu'ils utilisent pour traiter l'information. Toutefois, selon une nouvelle étude, les versions plus récentes et plus volumineuses de ces modèles linguistiques sont en fait devenues moins fiables, et non plus fiables.

Les grands modèles linguistiques sont essentiellement des versions suralimentées de la fonction d'autocomplétion que les smartphones utilisent pour prédire la suite d'un mot que la personne est en train de taper. ChatGPT, sans doute le chatbot le plus connu doté d'un LLM, a réussi des examens d'écoles de droit et de commerce, a répondu avec succès à des questions d'entretien pour des emplois dans le domaine du codage de logiciels, a rédigé des annonces immobilières et a développé du contenu publicitaire.

Mais les titulaires de LLM commettent souvent des erreurs. Par exemple, une étude réalisée en juin a révélé que la réussite de ChatGPT est extrêmement variable lorsqu'il s'agit de produire un code fonctionnel, avec un taux de réussite allant d'un maigre 0,66 % à 89 %, en fonction de la difficulté de la tâche, du langage de programmation et d'autres facteurs.

Les équipes de recherche ont exploré un certain nombre de stratégies pour rendre les LLM plus fiables. Il s'agit notamment d'augmenter la quantité de données d'apprentissage ou la puissance de calcul des modèles, ainsi que d'utiliser le retour d'information humain pour affiner les modèles et améliorer leurs résultats. Dans l'ensemble, les performances des LLM se sont améliorées au fil du temps. Par exemple, les premiers LLM échouaient lors d'additions simples telles que « 20 + 183 ». Aujourd'hui, les LLM effectuent avec succès des additions impliquant plus de 50 chiffres.

Toutefois, la nouvelle étude, publiée dans la revue Nature, révèle que « les nouveaux LLM peuvent sembler impressionnants et capables de résoudre des tâches très sophistiquées, mais ils ne sont pas fiables à divers égards », explique Lexin Zhou, coauteur de l'étude et assistant de recherche à l'université polytechnique de Valence, en Espagne. De plus, ajoute-t-il, « la tendance ne semble pas montrer de nettes améliorations, mais plutôt le contraire ».

Cette diminution de la fiabilité est en partie due à des changements qui ont rendu les modèles plus récents beaucoup moins susceptibles de dire qu'ils ne connaissent pas la réponse ou de donner une réponse qui ne répond pas à la question. Au lieu de cela, les modèles plus récents sont plus susceptibles de générer en toute confiance une réponse incorrecte.

RoboPAIR : l'algorithme qui contourne les protections des robots pilotés par LLM

Les LLM sont essentiellement des versions améliorées de la fonction d'autocomplétion que les smartphones utilisent pour prédire le reste d'un mot qu'une personne est en train de taper. Les LLM formés à l'analyse de textes, d'images et de sons peuvent faire des recommandations de voyage personnalisées, concevoir des recettes à partir d'une photo du contenu d'un réfrigérateur et contribuer à la création de sites web.

L'extraordinaire capacité des LLM à traiter du texte a incité un certain nombre d'entreprises à utiliser les systèmes d'IA pour aider à contrôler des robots par le biais de commandes vocales, en traduisant les instructions des utilisateurs en code que les robots peuvent exécuter. Par exemple, le chien robot Spot de Boston Dynamics, désormais intégré au ChatGPT d'OpenAI, peut servir de guide touristique. Les robots humanoïdes de Figure et le chien robot Go2 d'Unitree sont également équipés de ChatGPT.

Toutefois, un groupe de scientifiques a récemment identifié une série de failles de sécurité pour les LLM. Les attaques dites de « jailbreaking » découvrent des moyens de développer des messages-guides qui peuvent contourner les protections des LLM et tromper les systèmes d'IA en générant des contenus indésirables, tels que des instructions pour fabriquer des bombes, des recettes pour synthétiser des drogues illégales et des guides pour escroquer les organisations caritatives.

Les recherches précédentes sur les attaques de "jailbreaking" des LLM se concentraient principalement sur les chatbots. Cependant, le piratage de robots pourrait présenter des risques bien plus graves, comme l'explique Hamed Hassani, professeur à l'université de Pennsylvanie. Par exemple, un YouTuber a démontré qu'il était possible de forcer un chien robot Thermonator, équipé d'un lance-flammes, à projeter des flammes par commande vocale. Lors de tests sur trois robots différents - le Go2, le Jackal de Clearpath Robotics utilisant ChatGPT, et le simulateur de véhicule autonome Dolphins LLM de Nvidia - ils ont découvert que RoboPAIR réussissait à pirater chaque système en seulement quelques jours avec un taux de réussite de 100 %.

Alexander Robey, chercheur postdoctoral à l'université Carnegie Mellon, affirme que le piratage des robots contrôlés par l'IA est non seulement possible, mais d'une facilité déconcertante. RoboPAIR fonctionne en envoyant des invites d'un LLM attaquant à un LLM cible. L'attaquant analyse les réponses et ajuste ses messages jusqu'à ce qu'ils puissent contourner les protections de sécurité du système cible.

RoboPAIR a été équipé de l'API du robot cible, permettant à l'attaquant de formater ses demandes de manière à ce que le robot exécute le code correspondant. De plus, un LLM "juge" a été intégré pour s'assurer que les invites soient physiquement réalisables par le robot, en tenant compte des obstacles spécifiques à l'environnement.

Les chercheurs ont noté que le piratage de robots et le jailbreaking ont été traditionnellement étudiés par des communautés distinctes, mais qu'ils ont réussi à combiner ces deux domaines. Les trois robots testés présentaient des niveaux de difficulté variés : le Dolphins LLM était une "boîte blanche" (code source ouvert), le Jackal une "boîte grise" (code partiellement accessible) et le Go2 une "boîte noire" (interactions limitées). RoboPAIR a réussi à manipuler les trois systèmes, leur faisant exécuter des actions comme rouler sur un pont, par exemple.

Selon Amin Karbasi, responsable scientifique de Robust Intelligence et professeur d'ingénierie électrique et informatique et d'informatique à l'université de Yale, qui n'a pas participé à cette étude, ces nouvelles découvertes portent « le préjudice potentiel du jailbreaking à un niveau entièrement nouveau ». « Lorsque les LLM opèrent dans le monde réel par l'intermédiaire de robots contrôlés par des LLM, ils peuvent constituer une menace sérieuse et tangible ».

L'une des conclusions que les scientifiques ont jugées préoccupantes est que les LLM jailbreakés ne se contentent pas de répondre à des messages malveillants, mais proposent activement des suggestions. Par exemple, lorsqu'on lui a demandé de localiser des armes, un robot jailbreaké a décrit comment des objets courants tels que des bureaux et des chaises pouvaient être utilisés pour matraquer des personnes.

Les chercheurs ont souligné qu'avant la publication de leurs travaux, ils ont partagé leurs conclusions avec les fabricants des robots qu'ils ont étudiés, ainsi qu'avec des entreprises d'IA de premier plan. Ils ont également précisé qu'ils ne suggéraient pas aux chercheurs de cesser d'utiliser les LLM pour la robotique. Zachary Ravichandran, doctorant à l'université de Pennsylvanie, explique par exemple que les LLM peuvent aider à planifier les missions des robots pour l'inspection des infrastructures et l'intervention en cas de catastrophe.

RoboPAIR et les vulnérabilités des LLM, un avertissement pour l'avenir de l'IA

L'usage des grands modèles de langage (LLM) dans des environnements sensibles, notamment pour contrôler des robots autonomes, soulève d'importantes questions sur la fiabilité et la sécurité de ces systèmes. Actuellement, bien que ces technologies démontrent une capacité impressionnante à comprendre et générer du langage, elles restent intrinsèquement vulnérables à des failles qui peuvent être exploitées pour détourner leur fonctionnement. Par exemple, les attaques de type « jailbreaking » exposent des faiblesses de sécurité critiques, permettant de contourner les filtres de sécurité et de tromper les systèmes pour accomplir des actions malveillantes. Cette réalité montre les limites des LLM qui, malgré leur capacité à résoudre des tâches complexes, ne peuvent garantir une sécurité totale lorsqu’ils sont intégrés à des systèmes interactifs et physiques.

Les LLM sont souvent perçus comme des technologies révolutionnaires, mais leur fiabilité reste problématique, en particulier lorsqu'il s'agit de tâches ayant un impact direct sur le monde réel. La récente étude sur RoboPAIR, par exemple, met en lumière la facilité avec laquelle ces systèmes peuvent être manipulés, un aspect particulièrement alarmant dans des contextes où la sécurité est primordiale, comme dans les transports ou les environnements industriels. Les chercheurs constatent que même des modèles de langage avancés, comme ChatGPT, peuvent être détournés pour exécuter des actions dangereuses, illustrant ainsi un risque majeur qui n’a pas encore trouvé de solution pleinement efficace.

Le contrôle de robots par des LLM, bien que prometteur, doit donc être limité à des environnements hautement contrôlés. L'application des LLM dans des situations réelles nécessite une vigilance accrue et des mécanismes de surveillance humaine pour éviter les comportements imprévus ou malveillants. Le manque de « conscience de la situation » de ces modèles, comme le souligne un expert, en est un exemple frappant. Les LLM manquent encore de la capacité à comprendre le contexte complet dans lequel ils opèrent, ce qui rend leur utilisation dans des systèmes critiques risquée sans supervision humaine.

Il est évident que l'IA, notamment sous forme de LLM, ne peut être déployée de manière généralisée et autonome sans solutions de sécurité robustes. Alors que ces technologies continuent d’évoluer, l'intégration de contrôles plus rigoureux et d'une supervision constante sera essentielle pour garantir qu'elles restent sûres et adaptées à des usages plus larges. Sans ces précautions, la confiance dans l’IA risque d'être compromise, et avec elle, l'acceptation de son déploiement dans des secteurs de plus en plus sensibles.

Source : University of Pennsylvania

Et vous ?

Les conclusions de cette recherche sont-elles véritablement pertinentes ?

Quelle est l’ampleur des risques associés à l'utilisation des LLM pour le contrôle de robots dans des environnements sensibles ?

RoboPAIR pourrait-il être utilisé pour améliorer la sécurité des LLM en identifiant et corrigeant les vulnérabilités ?

Quels rôles la collaboration internationale et les standards de sécurité peuvent-ils jouer pour atténuer ces vulnérabilités ?

Voir aussi :

Les grands modèles de langage (LLM) sont-ils arrivés à saturation ? Oui, selon Gary Marcus, qui estime que « les LLM ont atteint un point de rendement décroissant »

Les LLM réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne : il y a moins de contenu valable pour former les IA, qui finissent donc par s'auto-empoisonner

Les grands modèles de langage (LLM) comprennent et peuvent être améliorés par des stimuli émotionnels, d'après un sujet de recherche

Vous avez lu gratuitement 349 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR,

Capable de contourner les protections

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR, Capable de contourner les protections

Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR,

Capable de contourner les protections