IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner,
Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM

Le , par Bruno

209PARTAGES

2  0 
Le phénomène des jailbreaks des grands modèles de langage (LLM) illustre les défis croissants liés à la gestion des systèmes d'intelligence artificielle, en particulier lorsqu'ils sont confrontés à des tentatives d'exploitation. L'une des méthodes récentes, baptisée « Bad Likert Judge », a mis en lumière une approche sophistiquée permettant de contourner les garde-fous de sécurité intégrés dans ces modèles. Les chercheurs de l'unité 42 de Palo Alto Networks ont réussi à exploiter la capacité des LLM à évaluer et à classifier le contenu nuisible à l'aide de l'échelle de Likert, qui évalue le degré de dangerosité d'un message. Cette technique permet aux attaquants de pousser les modèles à générer des réponses malveillantes, telles que des informations sur des logiciels malveillants, des comportements illégaux ou des propos de harcèlement.

Cette découverte soulève plusieurs problématiques critiques. Tout d'abord, elle expose l'écart entre la manière dont les modèles sont conçus pour interagir avec l'information et la réalité de leur manipulation par des utilisateurs malveillants. Le système de sécurité des LLM, souvent perçu comme un rempart efficace contre les contenus nuisibles, semble vulnérable face à des techniques d'attaque qui exploitent des mécanismes internes comme l'évaluation du contenu. De plus, la capacité d'un LLM à fournir des réponses potentiellement dangereuses, même après un processus de filtrage, met en évidence les limites des protections actuelles.



Les discussions sur les biais et la manipulation des systèmes d'IA, comme celles présentées dans les commentaires précédents, illustrent les tensions entre la création de modèles sécurisés et la nécessité d'un contrôle plus rigide des informations générées. Alors que des garde-fous sont mis en place pour empêcher la production de contenus inappropriés, la frontière entre ce qui est acceptable et ce qui ne l'est pas reste floue, et les utilisateurs trouvent des moyens de contourner ces restrictions. Le débat sur la nature de l'intelligence artificielle elle-même – un outil purement déterministe ou un système capable d'émerger en comportements imprévisibles – s'intensifie à mesure que des failles sont découvertes.

Ainsi, les résultats obtenus par l'attaque Bad Likert Judge renforcent la nécessité de repenser les architectures de sécurité des LLM, en tenant compte non seulement de la capacité à filtrer le contenu mais aussi de la manière dont ces systèmes peuvent être détournés par des techniques innovantes de manipulation. Cela souligne un défi majeur pour l'avenir des systèmes d'IA : comment concilier sécurité, éthique et liberté de générer des réponses tout en limitant les risques de mauvais usages.

Une méthode de jailbreak qui dévoile les failles des modèles de langage

La méthode de jailbreak « Bad Likert Judge », développée et testée par l'unité 42 de Palo Alto Networks, permet d'augmenter de plus de 60 % le taux de réussite des tentatives de jailbreak, par rapport aux attaques directes en une seule étape. Cette approche repose sur l'échelle de Likert, généralement utilisée pour mesurer le degré d'accord ou de désaccord avec une affirmation dans un questionnaire. Par exemple, sur une échelle de 1 à 5, un score de 1 indique un désaccord total, tandis qu'un score de 5 indique un accord total.

Dans le cadre des expérimentations, les chercheurs ont demandé aux modèles de langage (LLM) d'utiliser cette échelle pour évaluer la nocivité de certains contenus. Ainsi, ils ont attribué un score de 1 pour des contenus sans information malveillante et un score de 2 pour des contenus détaillant la création de logiciels malveillants. Après cette évaluation, les chercheurs ont demandé aux modèles de générer des exemples correspondant à chaque score, en insistant pour que l'exemple attribué au score 2 inclut des détails précis, souvent entraînant la génération de contenu préjudiciable.

Les chercheurs ont observé qu'une ou deux étapes supplémentaires dans le processus permettaient de générer encore plus de contenus nuisibles, à mesure que le modèle développait davantage les exemples fournis. Sur un total de 1 440 tests réalisés avec six modèles différents, la méthode « Bad Likert Judge » a atteint un taux de réussite moyen de 71,6 %. Le modèle ayant obtenu les meilleurs résultats avec un taux de 87,6 % était le modèle 6, tandis que le modèle 5, avec un taux de 36,9 %, a été le moins performant.

Les chercheurs ont également analysé l'efficacité de l'attaque dans diverses catégories de contenus nuisibles, telles que la haine, le harcèlement, l'automutilation, la promotion d'activités illégales et la génération de logiciels malveillants. Le contenu lié au harcèlement a été particulièrement facile à produire, avec un taux de réussite de base souvent supérieur à celui des autres catégories. Cependant, en ce qui concerne les fuites d'informations système, « Bad Likert Judge » a montré des résultats mitigés, excepté pour le modèle 1, où le taux de réussite est passé de 0 % à 100 %.

Pour contrer ces violations, il est recommandé d'implémenter des filtres de contenu qui évaluent à la fois les entrées et les sorties des LLM, afin d’empêcher la génération de contenu nuisible. Lorsqu'un modèle équipé de ces filtres a été testé, le taux de réussite de l'attaque a chuté à 89,2 %. Par ailleurs, l'année précédente, un autre jailbreak en plusieurs étapes, appelé « Deceptive Delight », avait déjà montré un taux de réussite de 65 % après seulement trois...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !