Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner,

Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM

Le 15 janvier 2025 à 15:10, par Bruno

95PARTAGES

Le phénomène des jailbreaks des grands modèles de langage (LLM) illustre les défis croissants liés à la gestion des systèmes d'intelligence artificielle, en particulier lorsqu'ils sont confrontés à des tentatives d'exploitation. L'une des méthodes récentes, baptisée « Bad Likert Judge », a mis en lumière une approche sophistiquée permettant de contourner les garde-fous de sécurité intégrés dans ces modèles. Les chercheurs de l'unité 42 de Palo Alto Networks ont réussi à exploiter la capacité des LLM à évaluer et à classifier le contenu nuisible à l'aide de l'échelle de Likert, qui évalue le degré de dangerosité d'un message. Cette technique permet aux attaquants de pousser les modèles à générer des réponses malveillantes, telles que des informations sur des logiciels malveillants, des comportements illégaux ou des propos de harcèlement.

Cette découverte soulève plusieurs problématiques critiques. Tout d'abord, elle expose l'écart entre la manière dont les modèles sont conçus pour interagir avec l'information et la réalité de leur manipulation par des utilisateurs malveillants. Le système de sécurité des LLM, souvent perçu comme un rempart efficace contre les contenus nuisibles, semble vulnérable face à des techniques d'attaque qui exploitent des mécanismes internes comme l'évaluation du contenu. De plus, la capacité d'un LLM à fournir des réponses potentiellement dangereuses, même après un processus de filtrage, met en évidence les limites des protections actuelles.

Les discussions sur les biais et la manipulation des systèmes d'IA, comme celles présentées dans les commentaires précédents, illustrent les tensions entre la création de modèles sécurisés et la nécessité d'un contrôle plus rigide des informations générées. Alors que des garde-fous sont mis en place pour empêcher la production de contenus inappropriés, la frontière entre ce qui est acceptable et ce qui ne l'est pas reste floue, et les utilisateurs trouvent des moyens de contourner ces restrictions. Le débat sur la nature de l'intelligence artificielle elle-même – un outil purement déterministe ou un système capable d'émerger en comportements imprévisibles – s'intensifie à mesure que des failles sont découvertes.

Ainsi, les résultats obtenus par l'attaque Bad Likert Judge renforcent la nécessité de repenser les architectures de sécurité des LLM, en tenant compte non seulement de la capacité à filtrer le contenu mais aussi de la manière dont ces systèmes peuvent être détournés par des techniques innovantes de manipulation. Cela souligne un défi majeur pour l'avenir des systèmes d'IA : comment concilier sécurité, éthique et liberté de générer des réponses tout en limitant les risques de mauvais usages.

Une méthode de jailbreak qui dévoile les failles des modèles de langage

La méthode de jailbreak « Bad Likert Judge », développée et testée par l'unité 42 de Palo Alto Networks, permet d'augmenter de plus de 60 % le taux de réussite des tentatives de jailbreak, par rapport aux attaques directes en une seule étape. Cette approche repose sur l'échelle de Likert, généralement utilisée pour mesurer le degré d'accord ou de désaccord avec une affirmation dans un questionnaire. Par exemple, sur une échelle de 1 à 5, un score de 1 indique un désaccord total, tandis qu'un score de 5 indique un accord total.

Dans le cadre des expérimentations, les chercheurs ont demandé aux modèles de langage (LLM) d'utiliser cette échelle pour évaluer la nocivité de certains contenus. Ainsi, ils ont attribué un score de 1 pour des contenus sans information malveillante et un score de 2 pour des contenus détaillant la création de logiciels malveillants. Après cette évaluation, les chercheurs ont demandé aux modèles de générer des exemples correspondant à chaque score, en insistant pour que l'exemple attribué au score 2 inclut des détails précis, souvent entraînant la génération de contenu préjudiciable.

Les chercheurs ont observé qu'une ou deux étapes supplémentaires dans le processus permettaient de générer encore plus de contenus nuisibles, à mesure que le modèle développait davantage les exemples fournis. Sur un total de 1 440 tests réalisés avec six modèles différents, la méthode « Bad Likert Judge » a atteint un taux de réussite moyen de 71,6 %. Le modèle ayant obtenu les meilleurs résultats avec un taux de 87,6 % était le modèle 6, tandis que le modèle 5, avec un taux de 36,9 %, a été le moins performant.

Les chercheurs ont également analysé l'efficacité de l'attaque dans diverses catégories de contenus nuisibles, telles que la haine, le harcèlement, l'automutilation, la promotion d'activités illégales et la génération de logiciels malveillants. Le contenu lié au harcèlement a été particulièrement facile à produire, avec un taux de réussite de base souvent supérieur à celui des autres catégories. Cependant, en ce qui concerne les fuites d'informations système, « Bad Likert Judge » a montré des résultats mitigés, excepté pour le modèle 1, où le taux de réussite est passé de 0 % à 100 %.

Pour contrer ces violations, il est recommandé d'implémenter des filtres de contenu qui évaluent à la fois les entrées et les sorties des LLM, afin d’empêcher la génération de contenu nuisible. Lorsqu'un modèle équipé de ces filtres a été testé, le taux de réussite de l'attaque a chuté à 89,2 %. Par ailleurs, l'année précédente, un autre jailbreak en plusieurs étapes, appelé « Deceptive Delight », avait déjà montré un taux de réussite de 65 % après seulement trois étapes, en demandant aux LLM de générer des récits mêlant contenus bénins et nuisibles.

Pourquoi les techniques de jailbreak fonctionnent-elles, et pourquoi sont-elles si efficaces ?

Les attaques à tour unique exploitent souvent les limites informatiques des modèles de langage. Certaines invites exigent du modèle qu'il effectue des tâches à forte intensité de calcul, telles que la génération d'un contenu de longue durée ou l'exécution d'un raisonnement complexe. Ces tâches peuvent solliciter les ressources du modèle, ce qui peut l'amener à négliger ou à contourner certains garde-fous.

Les attaques multitours exploitent généralement la fenêtre contextuelle et le mécanisme d'attention du modèle de langage pour contourner les garde-fous. En élaborant stratégiquement une série d'invites, un attaquant peut manipuler la compréhension du contexte de la conversation par le modèle. Il peut ensuite l'orienter progressivement vers des réponses dangereuses ou inappropriées que les garde-fous du modèle empêcheraient autrement.

Les LLM peuvent être vulnérables aux attaques de type « jailbreaking » en raison de leur longue fenêtre contextuelle. Ce terme fait référence à la quantité maximale de texte (tokens) qu'un modèle LLM peut mémoriser à un moment donné lorsqu'il génère des réponses. Anthropic a récemment découvert un bon exemple de cette stratégie, la stratégie d'attaque « many-shot ». Cette stratégie envoie simplement au LLM plusieurs séries d'invites précédant la question nuisible finale. Malgré sa simplicité, cette approche s'est avérée très efficace pour contourner les garde-fous internes du LLM.

En outre, le mécanisme d'attention des modèles de langage leur permet de se concentrer sur des parties spécifiques de l'entrée lors de la génération d'une réponse. Cependant, les adversaires peuvent abuser de cette capacité pour distraire les LLM et les amener à se concentrer sur les parties bénignes pendant qu'ils intègrent des invites dangereuses. Par exemple, l'attaque Deceptive Delight et l'attaque Crescendo, récemment découvertes, utilisent cette méthode.

Une méthode de jailbreak qui défie les garde-fous des modèles de langage

La technique de jailbreak en plusieurs étapes "Bad Likert Judge" et ses tests menés par l'unité 42 de Palo Alto Networks révèlent des enjeux cruciaux concernant la sécurité et la régulation des modèles de langage. Cette méthode, qui améliore les taux de réussite des attaques de jailbreak par rapport aux tentatives directes, soulève des questions pertinentes sur l'efficacité des filtres et des garde-fous qui sont censés empêcher la génération de contenu préjudiciable. Bien que ces tentatives de contournement aient montré un taux de réussite impressionnant dans certains cas, elles mettent également en lumière les failles inhérentes aux systèmes de sécurité actuels, ainsi que la facilité avec laquelle des méthodes peuvent être élaborées pour exploiter ces vulnérabilités.

Tout d'abord, le concept même du "Bad Likert Judge" repose sur l'utilisation d'un modèle probabiliste pour évaluer la nocivité d'un contenu, ce qui laisse ouverte la possibilité de manipuler les résultats. En demandant au modèle d'attribuer des scores à différents types de contenus et de générer des exemples, les chercheurs exploitent la flexibilité des systèmes d'IA actuels pour les amener à produire des réponses qui échappent aux protections. Ce processus met en évidence les limitations des modèles de langage, qui bien qu'ayant la capacité de comprendre le contexte et de produire des résultats détaillés, peuvent également être amenés à générer des contenus nuisibles ou malveillants si le cadre dans lequel ils opèrent est manipulé.

L'un des points les plus préoccupants soulevés par cette recherche est la facilité avec laquelle les modèles de langage peuvent être manipulés pour générer des contenus nuisibles, notamment dans les domaines du harcèlement, de la haine, ou de la promotion de logiciels malveillants. En observant que les "jailbreaks" ont un taux de succès particulièrement élevé dans la génération de contenu lié au harcèlement, il devient évident que, même...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner,

Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner, Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM

Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner,

Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM