La sécurité des grands modèles de langage est souvent présentée comme un équilibre délicat entre innovation et prudence. D’un côté, les chercheurs et les entreprises promettent des intelligences artificielles capables de générer du texte cohérent et utile, de l’autre, ils assurent qu’elles resteront inoffensives et conformes aux règles. Pourtant, des chercheurs de l’équipe Unit 42 de Palo Alto Networks viennent de démontrer à quel point ce vernis de sécurité peut être fragile. Leur constat est aussi troublant que fascinant : une simple phrase interminable, sans point final, suffit à contourner les mécanismes de protection mis en place par les concepteurs.Ce n’est pas une vulnérabilité complexe qui nécessite des attaques répétées, ni même une expertise technique rare. C’est au contraire une faille presque enfantine dans sa simplicité. Étirer une phrase en une succession de propositions, sans jamais la conclure, permet d’obtenir de la part du modèle des réponses normalement interdites.
Pour comprendre pourquoi une construction aussi banale peut provoquer une telle défaillance, il faut revenir au fonctionnement même des LLM. Ces modèles ne raisonnent pas au sens humain du terme. Ils prédisent simplement le mot ou la séquence suivante qui a statistiquement le plus de chances de suivre. Les garde-fous, qu’on appelle souvent « safety layers », ne sont pas intégrés au cœur de ce mécanisme. Ils sont ajoutés après l’entraînement du modèle, au moyen d’un processus d’alignement qui attribue une forte pénalisation aux suites de mots jugées dangereuses ou inappropriées.
Mais tant que la phrase n’est pas close, le système cherche avant tout la continuité. C’est un flux qu’il veut prolonger, une cohérence locale qu’il privilégie. Les garde-fous attendent souvent une fin de séquence pour se déclencher pleinement. L’absence de point final devient alors une sorte de faille syntaxique. Le modèle continue d’écrire, enchaîne les tokens, et dans ce flot ininterrompu, il se laisse entraîner vers des réponses qu’il aurait dû refuser.
Les chercheurs ont ainsi montré que cette attaque « en une seule phrase » obtenait des taux de réussite spectaculaires, parfois proches de 100 %. Des modèles open source très répandus, comme Llama de Meta, Gemma de Google ou encore Qwen d’Alibaba, se sont révélés vulnérables, même dans leurs versions les plus puissantes à 70 milliards de paramètres.
Cette faille ne surgit pas dans un vide. Depuis plusieurs années, la communauté de la cybersécurité documente de multiples façons de contourner les protections intégrées aux LLMs. Certaines méthodes consistent à multiplier les instructions contradictoires, à forcer le modèle à se « perdre » dans des enchaînements de rôles ou de dialogues (“many-shot jailbreaking”).
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.