La sécurité des grands modèles de langage est souvent présentée comme un équilibre délicat entre innovation et prudence. D’un côté, les chercheurs et les entreprises promettent des intelligences artificielles capables de générer du texte cohérent et utile, de l’autre, ils assurent qu’elles resteront inoffensives et conformes aux règles. Pourtant, des chercheurs de l’équipe Unit 42 de Palo Alto Networks viennent de démontrer à quel point ce vernis de sécurité peut être fragile. Leur constat est aussi troublant que fascinant : une simple phrase interminable, sans point final, suffit à contourner les mécanismes de protection mis en place par les concepteurs.
Ce n’est pas une vulnérabilité complexe qui nécessite des attaques répétées, ni même une expertise technique rare. C’est au contraire une faille presque enfantine dans sa simplicité. Étirer une phrase en une succession de propositions, sans jamais la conclure, permet d’obtenir de la part du modèle des réponses normalement interdites.Pour comprendre pourquoi une construction aussi banale peut provoquer une telle défaillance, il faut revenir au fonctionnement même des LLM. Ces modèles ne raisonnent pas au sens humain du terme. Ils prédisent simplement le mot ou la séquence suivante qui a statistiquement le plus de chances de suivre. Les garde-fous, qu’on appelle souvent « safety layers », ne sont pas intégrés au cœur de ce mécanisme. Ils sont ajoutés après l’entraînement du modèle, au moyen d’un processus d’alignement qui attribue une forte pénalisation aux suites de mots jugées dangereuses ou inappropriées.
Mais tant que la phrase n’est pas close, le système cherche avant tout la continuité. C’est un flux qu’il veut prolonger, une cohérence locale qu’il privilégie. Les garde-fous attendent souvent une fin de séquence pour se déclencher pleinement. L’absence de point final devient alors une sorte de faille syntaxique. Le modèle continue d’écrire, enchaîne les tokens, et dans ce flot ininterrompu, il se laisse entraîner vers des réponses qu’il aurait dû refuser.
Les chercheurs ont ainsi montré que cette attaque « en une seule phrase » obtenait des taux de réussite spectaculaires, parfois proches de 100 %. Des modèles open source très répandus, comme Llama de Meta, Gemma de Google ou encore Qwen d’Alibaba, se sont révélés vulnérables, même dans leurs versions les plus puissantes à 70 milliards de paramètres.

Envoyé par
Palo Alto Networks
De nombreuses publications ont abordé les problèmes liés au fait d'inciter les LLM à répondre à des demandes préjudiciables. Nos dernières recherches universitaires proposent une nouvelle façon d'aborder ces questions et expliquent comment les défenseurs pourraient également améliorer la sécurité des LLM. La clé réside dans la prise en compte de certaines qualités fondamentales liées à la manière dont les fonctionnalités de sécurité sont intégrées dans les modèles LLM.
Les LLM sont conçus pour refuser les requêtes nuisibles grâce à un entraînement « d'alignement », un processus qui vise à rendre les réponses négatives beaucoup plus probables que les réponses affirmatives pour les invites dangereuses. Un aspect technique de ce processus est l'utilisation de « logits », les scores bruts qu'un LLM attribue aux mots potentiels suivants. L'entraînement d'alignement introduit des jetons de refus qui empêchent le modèle de répondre à des requêtes nuisibles. Une partie de l'entraînement consiste à ajuster les logits afin qu'ils favorisent les jetons de refus lorsqu'ils le doivent.
Une vulnérabilité parmi d’autres dans l’histoire des jailbreaksCette faille ne surgit pas dans un vide. Depuis plusieurs années, la communauté de la cybersécurité documente de multiples façons de contourner les protections intégrées aux LLMs. Certaines méthodes consistent à multiplier les instructions contradictoires, à forcer le modèle à se « perdre » dans des enchaînements de rôles ou de dialogues (“many-shot jailbreaking”).

Envoyé par
Anthropic
Nous avons étudié une technique de « jailbreaking » (évasion) qui permet de contourner les mesures de sécurité mises en place par les développeurs de grands modèles de langages (LLM). Cette technique, que nous appelons « many-shot jailbreaking », est efficace sur les modèles d'Anthropic, ainsi que sur ceux produits par d'autres entreprises d'IA. Nous avons informé à l'avance les autres développeurs d'IA de cette vulnérabilité et avons mis en place des mesures d'atténuation sur nos systèmes.
Cette technique tire parti d'une fonctionnalité des LLM qui s'est considérablement développée au cours de l'année dernière : la fenêtre contextuelle. Au début de l'année 2023, la fenêtre contextuelle, c'est-à-dire la quantité d'informations qu'un LLM peut traiter en entrée, correspondait à peu près à la taille d'un long essai (environ 4 000 tokens). Certains modèles ont désormais des fenêtres contextuelles des centaines de fois plus grandes, soit la taille de plusieurs romans longs (1 000 000 de tokens ou plus).
La possibilité de saisir des quantités d'informations de plus en plus importantes présente des avantages évidents pour les utilisateurs de LLM, mais elle comporte également des risques : des vulnérabilités aux jailbreaks qui exploitent la fenêtre contextuelle plus longue.
L'un d'entre eux, que nous décrivons dans notre nouvel article, est le jailbreaking à plusieurs coups. En incluant de grandes quantités de texte dans une configuration spécifique, cette technique peut forcer les LLM à produire des réponses potentiellement dangereuses, même s'ils ont été formés à ne pas le faire.
D’autres exploitent la diversité linguistique : demander au modèle de répondre dans une langue peu répandue ou mal représentée dans ses filtres permet parfois d’obtenir des résultats interdits. On a également vu apparaître des attaques basées sur la stéganographie textuelle, où des consignes cachées dans des suites de symboles ou de codes sont interprétées par le modèle comme des instructions valides.
Comparée à ces techniques, l’attaque de la phrase unique se distingue par sa simplicité et son taux de réussite. Elle ne demande pas de connaissances avancées en prompt engineering, ni même une stratégie élaborée. Elle illustre donc un problème plus fondamental : les modèles restent vulnérables à des manipulations triviales parce que leur cœur statistique n’est pas conçu pour reconnaître les intentions malveillantes.
La mesure de la vulnérabilité : logit-gap et nouvelles méthodesUnit 42 ne s’est pas contentée de pointer du doigt la faiblesse, elle a aussi tenté de l’analyser finement. Pour cela, les chercheurs ont introduit la notion de refusal-affirmation logit gap. Ce concept permet de mesurer la différence de probabilité entre une réponse que le modèle aurait normalement dû refuser et la réponse problématique qu’il finit par produire. Plus l’écart est faible, plus la probabilité que le modèle “bascule” est grande.
Afin d’évaluer cette faille à grande échelle, les chercheurs ont aussi proposé une méthode originale baptisée
sort-sum-stop. Elle offre un compromis intéressant : évaluer rapidement la robustesse des modèles, avec moins d’appels et moins de calculs que les approches plus lourdes habituellement utilisées. Cette innovation méthodologique pourrait devenir un outil clé pour auditer la sécurité des LLMs dans les environnements industriels.

Envoyé par
Palo Alto Networks
Notre recherche introduit un concept essentiel : le Logit Gap de refus-affirmation. Il s'agit de l'idée selon laquelle le processus d'entraînement n'élimine pas réellement le risque d'une réponse nuisible, mais le rend simplement moins probable. Il reste possible pour un attaquant de « combler le fossé » et de découvrir une réponse nuisible après tout.
Notre article de recherche universitaire, intitulé « Logit-Gap Steering: Efficient Short-Path Suffix Jailbreaks for Aligned Large Language Models » (Logit-Gap Steering : échappatoires efficaces à chemin court pour les modèles linguistiques alignés), explore le fonctionnement de ce processus et son efficacité potentielle pour les attaquants. Nos approches ont non seulement démontré une forte efficacité en matière de jailbreak sur les LLM open source classiques tels que Qwen, LLama et Gemma, mais elles ont également fonctionné efficacement sur le tout dernier modèle open source d'OpenAI, gpt-oss-20b, avec un taux de réussite des attaques exceptionnel (>75 %). L'article a été publié avant la sortie de gpt-oss-20b.
Cela démontre clairement que le fait de se fier uniquement à l'alignement interne d'un LLM pour empêcher les contenus toxiques ou nuisibles est une stratégie insuffisante. La nature mathématique inhérente à l'écart logit signifie que des adversaires déterminés peuvent trouver, et trouveront, des moyens de contourner ces garde-fous internes. La véritable sécurité de l'IA exige une stratégie de défense en profondeur, intégrant des protections externes supplémentaires et des filtres de contenu pour une posture de sécurité véritablement robuste.
[ATTACH...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en
prenant un abonnement pour que nous puissions continuer à vous proposer des publications.