IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Il suffit d'une longue phrase sans point final pour faire vaciller les garde-fous des grands modèles de langage : les chercheurs de Palo Alto ont démontré à quel point leur vernis de sécurité peut être fragile

Le , par Stéphane le calme

5PARTAGES

4  0 
Il suffit d'une longue phrase sans point final pour faire vaciller les garde-fous des grands modèles de langage :
les chercheurs de Palo Alto ont démontré à quel point leur vernis de sécurité peut être fragile

La sécurité des grands modèles de langage est souvent présentée comme un équilibre délicat entre innovation et prudence. D’un côté, les chercheurs et les entreprises promettent des intelligences artificielles capables de générer du texte cohérent et utile, de l’autre, ils assurent qu’elles resteront inoffensives et conformes aux règles. Pourtant, des chercheurs de l’équipe Unit 42 de Palo Alto Networks viennent de démontrer à quel point ce vernis de sécurité peut être fragile. Leur constat est aussi troublant que fascinant : une simple phrase interminable, sans point final, suffit à contourner les mécanismes de protection mis en place par les concepteurs.

Ce n’est pas une vulnérabilité complexe qui nécessite des attaques répétées, ni même une expertise technique rare. C’est au contraire une faille presque enfantine dans sa simplicité. Étirer une phrase en une succession de propositions, sans jamais la conclure, permet d’obtenir de la part du modèle des réponses normalement interdites.


Pour comprendre pourquoi une construction aussi banale peut provoquer une telle défaillance, il faut revenir au fonctionnement même des LLM. Ces modèles ne raisonnent pas au sens humain du terme. Ils prédisent simplement le mot ou la séquence suivante qui a statistiquement le plus de chances de suivre. Les garde-fous, qu’on appelle souvent « safety layers », ne sont pas intégrés au cœur de ce mécanisme. Ils sont ajoutés après l’entraînement du modèle, au moyen d’un processus d’alignement qui attribue une forte pénalisation aux suites de mots jugées dangereuses ou inappropriées.

Mais tant que la phrase n’est pas close, le système cherche avant tout la continuité. C’est un flux qu’il veut prolonger, une cohérence locale qu’il privilégie. Les garde-fous attendent souvent une fin de séquence pour se déclencher pleinement. L’absence de point final devient alors une sorte de faille syntaxique. Le modèle continue d’écrire, enchaîne les tokens, et dans ce flot ininterrompu, il se laisse entraîner vers des réponses qu’il aurait dû refuser.

Les chercheurs ont ainsi montré que cette attaque « en une seule phrase » obtenait des taux de réussite spectaculaires, parfois proches de 100 %. Des modèles open source très répandus, comme Llama de Meta, Gemma de Google ou encore Qwen d’Alibaba, se sont révélés vulnérables, même dans leurs versions les plus puissantes à 70 milliards de paramètres.

Citation Envoyé par Palo Alto Networks
De nombreuses publications ont abordé les problèmes liés au fait d'inciter les LLM à répondre à des demandes préjudiciables. Nos dernières recherches universitaires proposent une nouvelle façon d'aborder ces questions et expliquent comment les défenseurs pourraient également améliorer la sécurité des LLM. La clé réside dans la prise en compte de certaines qualités fondamentales liées à la manière dont les fonctionnalités de sécurité sont intégrées dans les modèles LLM.

Les LLM sont conçus pour refuser les requêtes nuisibles grâce à un entraînement « d'alignement », un processus qui vise à rendre les réponses négatives beaucoup plus probables que les réponses affirmatives pour les invites dangereuses. Un aspect technique de ce processus est l'utilisation de « logits », les scores bruts qu'un LLM attribue aux mots potentiels suivants. L'entraînement d'alignement introduit des jetons de refus qui empêchent le modèle de répondre à des requêtes nuisibles. Une partie de l'entraînement consiste à ajuster les logits afin qu'ils favorisent les jetons de refus lorsqu'ils le doivent.
Une vulnérabilité parmi d’autres dans l’histoire des jailbreaks

Cette faille ne surgit pas dans un vide. Depuis plusieurs années, la communauté de la cybersécurité documente de multiples façons de contourner les protections intégrées aux LLMs. Certaines méthodes consistent à multiplier les instructions contradictoires, à forcer le modèle à se « perdre » dans des enchaînements de rôles ou de dialogues (“many-shot jailbreaking”).

Citation Envoyé par Anthropic
Nous avons étudié une technique de « jailbreaking » (évasion) qui permet de contourner les mesures de sécurité mises en place par les développeurs de grands modèles de langages (LLM). Cette technique, que nous appelons « many-shot jailbreaking », est efficace sur les modèles d'Anthropic, ainsi que sur ceux produits par d'autres entreprises d'IA. Nous avons informé à l'avance les autres développeurs d'IA de cette vulnérabilité et avons mis en place des mesures d'atténuation sur nos systèmes.

Cette technique tire parti d'une fonctionnalité des LLM qui s'est considérablement développée au cours de l'année dernière : la fenêtre contextuelle. Au début de l'année 2023, la fenêtre contextuelle, c'est-à-dire la quantité d'informations qu'un LLM peut traiter en entrée, correspondait à peu près à la taille d'un long essai (environ 4 000 tokens). Certains modèles ont désormais des fenêtres contextuelles des centaines de fois plus grandes, soit la taille de plusieurs romans longs (1 000 000 de tokens ou plus).

La possibilité de saisir des quantités d'informations de plus en plus importantes présente des avantages évidents pour les utilisateurs de LLM, mais elle comporte également des risques : des vulnérabilités aux jailbreaks qui exploitent la fenêtre contextuelle plus longue.

L'un d'entre eux, que nous décrivons dans notre nouvel article, est le jailbreaking à plusieurs coups. En incluant de grandes quantités de texte dans une configuration spécifique, cette technique peut forcer les LLM à produire des réponses potentiellement dangereuses, même s'ils ont été formés à ne pas le faire.
D’autres exploitent la diversité linguistique : demander au modèle de répondre dans une langue peu répandue ou mal représentée dans ses filtres permet parfois d’obtenir des résultats interdits. On a également vu apparaître des attaques basées sur la stéganographie textuelle, où des consignes cachées dans des suites de symboles ou de codes sont interprétées par le modèle comme des instructions valides.

Comparée à ces techniques, l’attaque de la phrase unique se distingue par sa simplicité et son taux de réussite. Elle ne demande pas de connaissances avancées en prompt engineering, ni même une stratégie élaborée. Elle illustre donc un problème plus fondamental : les modèles restent vulnérables à des manipulations triviales parce que leur cœur statistique n’est pas conçu pour reconnaître les intentions malveillantes.


La mesure de la vulnérabilité : logit-gap et nouvelles méthodes

Unit 42 ne s’est pas contentée de pointer du doigt la faiblesse, elle a aussi tenté de l’analyser finement. Pour cela, les chercheurs ont introduit la notion de refusal-affirmation logit gap. Ce concept permet de mesurer la différence de probabilité entre une réponse que le modèle aurait normalement dû refuser et la réponse problématique qu’il finit par produire. Plus l’écart est faible, plus la probabilité que le modèle “bascule” est grande.

Afin d’évaluer cette faille à grande échelle, les chercheurs ont aussi proposé une méthode originale baptisée sort-sum-stop. Elle offre un compromis intéressant : évaluer rapidement la robustesse des modèles, avec moins d’appels et moins de calculs que les approches plus lourdes habituellement utilisées. Cette innovation méthodologique pourrait devenir un outil clé pour auditer la sécurité des LLMs dans les environnements industriels.

Citation Envoyé par Palo Alto Networks
Notre recherche introduit un concept essentiel : le Logit Gap de refus-affirmation. Il s'agit de l'idée selon laquelle le processus d'entraînement n'élimine pas réellement le risque d'une réponse nuisible, mais le rend simplement moins probable. Il reste possible pour un attaquant de « combler le fossé » et de découvrir une réponse nuisible après tout.

Notre article de recherche universitaire, intitulé « Logit-Gap Steering: Efficient Short-Path Suffix Jailbreaks for Aligned Large Language Models » (Logit-Gap Steering : échappatoires efficaces à chemin court pour les modèles linguistiques alignés), explore le fonctionnement de ce processus et son efficacité potentielle pour les attaquants. Nos approches ont non seulement démontré une forte efficacité en matière de jailbreak sur les LLM open source classiques tels que Qwen, LLama et Gemma, mais elles ont également fonctionné efficacement sur le tout dernier modèle open source d'OpenAI, gpt-oss-20b, avec un taux de réussite des attaques exceptionnel (>75 %). L'article a été publié avant la sortie de gpt-oss-20b.

Cela démontre clairement que le fait de se fier uniquement à l'alignement interne d'un LLM pour empêcher les contenus toxiques ou nuisibles est une stratégie insuffisante. La nature mathématique inhérente à l'écart logit signifie que des adversaires déterminés peuvent trouver, et trouveront, des moyens de contourner ces garde-fous internes. La véritable sécurité de l'IA exige une stratégie de défense en profondeur, intégrant des protections externes supplémentaires et des filtres de contenu pour une posture de sécurité véritablement robuste.

Une défense en profondeur plus que jamais nécessaire

La conclusion des chercheurs est sans appel : les protections actuelles, qui consistent essentiellement à ajouter une couche de contrôle au-dessus d’un modèle fondamental, ne suffisent pas. Comme le rappelle Billy Hewlett, directeur de la recherche IA chez Palo Alto Networks, ce type de sécurité ne supprime pas réellement les capacités problématiques, il les rend simplement moins probables. Autrement dit, le danger n’est pas éliminé, seulement masqué derrière un brouillard de probabilités.

Cette réalité oblige à repenser les approches de sécurité. L’idée d’une défense en profondeur s’impose. Elle suppose de multiplier les couches de protection : surveiller les entrées pour détecter des prompts suspects, analyser en temps réel les sorties du modèle, et instaurer une supervision post-génération qui peut inclure des filtres automatisés ou même des relectures humaines dans les contextes critiques.

Mais au-delà de ces remparts externes, la véritable piste reste celle de modèles entraînés dès leur conception avec une prise en compte intrinsèque de la sécurité. Cela impliquerait de modifier les méthodes d’apprentissage de base pour que la probabilité d’une réponse dangereuse soit non seulement réduite, mais réellement inexistante. Une telle transformation suppose des investissements massifs et une refonte des paradigmes d’entraînement, mais elle apparaît de plus en plus incontournable.

Conclusion : une leçon de modestie

Cette affaire rappelle une vérité souvent occultée dans le discours promotionnel autour de l’IA générative : les LLMs ne sont pas intelligents au sens où nous l’entendons, ils sont des prédicteurs statistiques sophistiqués. C’est précisément cette nature qui les rend à la fois puissants et fragiles. Une phrase trop longue, dépourvue de point final, suffit à leur faire perdre l’équilibre.

Pour les professionnels de l’informatique, cette vulnérabilité est une leçon de modestie. Elle rappelle qu’aucun garde-fou n’est parfait, et que la sécurité ne peut être confiée à une seule couche technique. Elle appelle à une vigilance accrue, à une meilleure formation des utilisateurs et à des architectures de défense plus robustes. Surtout, elle incite à regarder la technologie sans fascination naïve : les modèles de langage sont des outils extraordinaires, mais ils reposent sur des mécaniques simples qu’un attaquant ingénieux peut détourner avec une facilité déconcertante.

Sources : Unit 42, many-shot jailbreaking (Anthropic), résultats de l'étude de Palo Alto Networks

Et vous ?

Au-delà des attaques par « longue phrase », quelles sont, selon vous, les menaces les plus sous-estimées qui pèsent sur la sécurité des LLM en production ?

Comment une entreprise peut-elle concrètement intégrer un processus de « red-teaming » (test d'intrusion) pour les LLM afin de détecter ce type de vulnérabilités avant qu'elles ne soient exploitées ?

Si une simple phrase suffit à contourner les protections, cela signifie-t-il que l’approche actuelle de l’alignement est condamnée à échouer à long terme ?

Peut-on encore faire confiance aux LLMs dans des domaines critiques comme la santé, la finance ou la cybersécurité, sachant que leurs garde-fous se contournent aussi facilement ?

La responsabilité des dérives incombe-t-elle aux chercheurs qui découvrent ces failles, aux entreprises qui déploient ces modèles, ou aux utilisateurs qui en abusent ?
Vous avez lu gratuitement 4 400 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !