Nous avons étudié une technique de « jailbreaking » (évasion) qui permet de contourner les mesures de sécurité mises en place par les développeurs de grands modèles de langages (LLM). Cette technique, que nous appelons « many-shot jailbreaking », est efficace sur les modèles d'Anthropic, ainsi que sur ceux produits par d'autres entreprises d'IA. Nous avons informé à l'avance les autres développeurs d'IA de cette vulnérabilité et avons mis en place des mesures d'atténuation sur nos systèmes.



Cette technique tire parti d'une fonctionnalité des LLM qui s'est considérablement développée au cours de l'année dernière : la fenêtre contextuelle. Au début de l'année 2023, la fenêtre contextuelle, c'est-à-dire la quantité d'informations qu'un LLM peut traiter en entrée, correspondait à peu près à la taille d'un long essai (environ 4 000 tokens). Certains modèles ont désormais des fenêtres contextuelles des centaines de fois plus grandes, soit la taille de plusieurs romans longs (1 000 000 de tokens ou plus).



La possibilité de saisir des quantités d'informations de plus en plus importantes présente des avantages évidents pour les utilisateurs de LLM, mais elle comporte également des risques : des vulnérabilités aux jailbreaks qui exploitent la fenêtre contextuelle plus longue.



L'un d'entre eux, que nous décrivons dans notre nouvel article, est le jailbreaking à plusieurs coups. En incluant de grandes quantités de texte dans une configuration spécifique, cette technique peut forcer les LLM à produire des réponses potentiellement dangereuses, même s'ils ont été formés à ne pas le faire.