Il suffit d'une longue phrase sans point final pour faire vaciller les garde-fous des grands modèles de langage : les chercheurs de Palo Alto ont démontré à quel point leur vernis de sécurité peut être fragile

Le 31 août 2025 à 23:01, par Stéphane le calme

290PARTAGES

La sécurité des grands modèles de langage est souvent présentée comme un équilibre délicat entre innovation et prudence. D’un côté, les chercheurs et les entreprises promettent des intelligences artificielles capables de générer du texte cohérent et utile, de l’autre, ils assurent qu’elles resteront inoffensives et conformes aux règles. Pourtant, des chercheurs de l’équipe Unit 42 de Palo Alto Networks viennent de démontrer à quel point ce vernis de sécurité peut être fragile. Leur constat est aussi troublant que fascinant : une simple phrase interminable, sans point final, suffit à contourner les mécanismes de protection mis en place par les concepteurs.

Ce n’est pas une vulnérabilité complexe qui nécessite des attaques répétées, ni même une expertise technique rare. C’est au contraire une faille presque enfantine dans sa simplicité. Étirer une phrase en une succession de propositions, sans jamais la conclure, permet d’obtenir de la part du modèle des réponses normalement interdites.

Pour comprendre pourquoi une construction aussi banale peut provoquer une telle défaillance, il faut revenir au fonctionnement même des LLM. Ces modèles ne raisonnent pas au sens humain du terme. Ils prédisent simplement le mot ou la séquence suivante qui a statistiquement le plus de chances de suivre. Les garde-fous, qu’on appelle souvent « safety layers », ne sont pas intégrés au cœur de ce mécanisme. Ils sont ajoutés après l’entraînement du modèle, au moyen d’un processus d’alignement qui attribue une forte pénalisation aux suites de mots jugées dangereuses ou inappropriées.

Mais tant que la phrase n’est pas close, le système cherche avant tout la continuité. C’est un flux qu’il veut prolonger, une cohérence locale qu’il privilégie. Les garde-fous attendent souvent une fin de séquence pour se déclencher pleinement. L’absence de point final devient alors une sorte de faille syntaxique. Le modèle continue d’écrire, enchaîne les tokens, et dans ce flot ininterrompu, il se laisse entraîner vers des réponses qu’il aurait dû refuser.

Les chercheurs ont ainsi montré que cette attaque « en une seule phrase » obtenait des taux de réussite spectaculaires, parfois proches de 100 %. Des modèles open source très répandus, comme Llama de Meta, Gemma de Google ou encore Qwen d’Alibaba, se sont révélés vulnérables, même dans leurs versions les plus puissantes à 70 milliards de paramètres.

Envoyé par Palo Alto Networks

De nombreuses publications ont abordé les problèmes liés au fait d'inciter les LLM à répondre à des demandes préjudiciables. Nos dernières recherches universitaires proposent une nouvelle façon d'aborder ces questions et expliquent comment les défenseurs pourraient également améliorer la sécurité des LLM. La clé réside dans la prise en compte de certaines qualités fondamentales liées à la manière dont les fonctionnalités de sécurité sont intégrées dans les modèles LLM.

Les LLM sont conçus pour refuser les requêtes nuisibles grâce à un entraînement « d'alignement », un processus qui vise à rendre les réponses négatives beaucoup plus probables que les réponses affirmatives pour les invites dangereuses. Un aspect technique de ce processus est l'utilisation de « logits », les scores bruts qu'un LLM attribue aux mots potentiels suivants. L'entraînement d'alignement introduit des jetons de refus qui empêchent le modèle de répondre à des requêtes nuisibles. Une partie de l'entraînement consiste à ajuster les logits afin qu'ils favorisent les jetons de refus lorsqu'ils le doivent.

Une vulnérabilité parmi d’autres dans l’histoire des jailbreaks

Cette faille ne surgit pas dans un vide. Depuis plusieurs années, la communauté de la cybersécurité documente de multiples façons de contourner les protections intégrées aux LLMs. Certaines méthodes consistent à multiplier les instructions contradictoires, à forcer le modèle à se « perdre » dans des enchaînements de rôles ou de dialogues (“many-shot jailbreaking”).

Envoyé par Anthropic

Nous avons étudié une technique de « jailbreaking » (évasion) qui permet de contourner les mesures de sécurité mises en place par les développeurs de grands modèles de langages (LLM). Cette technique, que nous appelons « many-shot jailbreaking », est efficace sur les modèles d'Anthropic, ainsi que sur ceux produits par d'autres entreprises d'IA. Nous avons informé à l'avance les autres développeurs d'IA de cette vulnérabilité et avons mis en place des mesures d'atténuation sur nos systèmes.

Cette technique tire parti d'une fonctionnalité des LLM qui s'est considérablement développée au cours de l'année dernière : la fenêtre contextuelle. Au début de l'année 2023, la fenêtre contextuelle, c'est-à-dire la quantité d'informations qu'un LLM peut traiter en entrée, correspondait à peu près à la taille d'un long essai (environ 4 000 tokens). Certains modèles ont désormais des fenêtres contextuelles des centaines de fois plus grandes, soit la taille de plusieurs romans longs (1 000 000 de tokens ou plus).

La possibilité de saisir des quantités d'informations de plus en plus importantes présente des avantages évidents pour les utilisateurs de LLM, mais elle comporte également des risques : des vulnérabilités aux...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Il suffit d'une longue phrase sans point final pour faire vaciller les garde-fous des grands modèles de langage : les chercheurs de Palo Alto ont démontré à quel point leur vernis de sécurité peut être fragile

Identifiant
Mot de passe

Mot de passe oublié ?