
Un rapport a révélé que la dernière version du LLM de xAI, Grok-4, a déjà été victime d'un jailbreak sophistiqué. L'équipe de NeuralTrust a combiné Echo Chamber et Crescendo pour pirater le LLM. L'objectif était d'inciter le modèle à révéler les instructions de fabrication d'un cocktail Molotov, un exemple utilisé à l'origine dans l'article de Crescendo. La méthode a été couronnée de succès à plusieurs reprises. Pour les cocktails Molotov de Crescendo, le taux de réussite a été de 67 %. Pour le test "meth" (synthèse de méthamphétamine) de Crescendo, il a obtenu un taux de réussite de 50 %. Pour le test "toxine" (substances toxiques ou synthèse d'armes chimiques) de Crescendo, le taux de réussite a été de 30 %.
Grok est un chatbot d'intelligence artificielle générative développé par xAI. Il a été lancé en novembre 2023 par Elon Musk en tant qu'initiative basée sur le grand modèle de langage (LLM) du même nom. Grok est intégré à la plateforme de médias sociaux X, anciennement connue sous le nom de Twitter, et dispose d'applications pour iOS et Android.
Ce mois de juillet 2025, Elon Musk et son entreprise xAI ont présenté en grande pompe Grok 4, la dernière version de leur intelligence artificielle générative, supposée rivaliser avec les meilleurs modèles du marché, dont GPT‑4o d’OpenAI. Mais derrière les démonstrations techniques et les effets d’annonce, une autre réalité trouble se dessine : un modèle au prix prohibitif, des fonctionnalités idéologiquement orientées, et surtout, un système accusé de propager des discours antisémites et haineux.
Récemment, un rapport a révélé que la dernière version du LLM de xAI, Grok-4, a déjà été victime d'un jailbreak sophistiqué. L'attaque par jailbreak de l'Echo Chamber a été décrite le 23 juin 2025. La dernière version du Grok-4 de xAI a été publiée le 9 juillet 2025. Deux jours plus tard, il a été victime d'une attaque combinée d'Echo Chamber et de Crescendo.
Echo Chamber a été développé par NeuralTrust. Elle utilise un empoisonnement subtil du contexte pour inciter un LLM à fournir des résultats dangereux. L'élément clé est de ne jamais introduire directement un mot dangereux qui pourrait déclencher les filtres de protection du LLM. Crescendo a été décrit pour la première fois par Microsoft en avril 2024. Il incite progressivement les LLM à contourner les filtres de sécurité en se référant à leurs propres réponses antérieures.
Echo Chamber et Crescendo sont tous deux des jailbreaks « multi-tours » dont le fonctionnement est subtilement différent. Le point important ici est qu'ils peuvent être utilisés en combinaison pour améliorer l'efficacité de l'attaque. Ils fonctionnent grâce à l'incapacité des LLM à reconnaître les intentions malveillantes dans le contexte plutôt que dans des invites individuelles.
Les chercheurs de NeuralTrust ont tenté de casser les nouveaux garde-fous Grok-4 en utilisant Echo Chamber pour inciter le LLM à fournir un mode d'emploi pour produire un cocktail Molotov. "Bien que le cycle de persuasion ait poussé le modèle vers l'objectif nuisible, il n'était pas suffisant en soi", écrit l'entreprise. "C'est alors que Crescendo a donné le coup de pouce nécessaire. Avec seulement deux tours supplémentaires, l'approche combinée a réussi à susciter la réponse ciblée".
Si vous comprenez le fonctionnement des deux jailbreaks individuels, leur intégration est simple. Lors de ses tests, NeuralTrust a commencé par utiliser l'Echo Chamber et une invite initiale qui détectait les progrès « non aboutis » dans le cycle de persuasion. À ce stade, les techniques de crescendo entrent en jeu. "Ce coup de pouce supplémentaire réussit généralement en deux itérations. À ce stade, soit le modèle détecte l'intention malveillante et refuse de répondre, soit l'attaque réussit et le modèle produit un résultat nuisible."
Comme pour tous les jailbreaks, rien ne réussit à 100 % à chaque tentative. Néanmoins, les chercheurs ont testé la méthode de jailbreak combinée d'Echo Chamber et de Crescendo contre d'autres sorties "interdites" de Grok-4. La méthode a été couronnée de succès à plusieurs reprises. Pour les cocktails Molotov de Crescendo, le taux de réussite a été de 67 %. Pour le test "meth" (synthèse de méthamphétamine) de Crescendo, il a obtenu un taux de réussite de 50 %. Pour le test "toxine" (substances toxiques ou synthèse d'armes chimiques) de Crescendo, le taux de réussite a été de 30 %.
Ce qui est inquiétant, c'est que même les derniers LLM ne peuvent pas se prémunir contre toutes les méthodes d'évasion existantes, Grok-4 ayant été vaincu deux jours seulement après sa publication. "Les attaques hybrides telles que l'exploit Echo Chamber + Crescendo représentent une nouvelle frontière dans les risques adverses des LLM, capables de contourner furtivement des filtres isolés en tirant parti de l'ensemble du contexte conversationnel." La bataille permanente entre les LLM sûrs et sécurisés et l'ingéniosité des attaquants ne semble pas près de s'arrêter.
Exemple d'attaque
L'équipe de NeuralTrust a combiné Echo Chamber et Crescendo pour pirater le LLM. L'objectif était d'inciter le modèle à révéler les instructions de fabrication d'un cocktail Molotov, un exemple utilisé à l'origine dans l'article de Crescendo.
Ils ont commencé par exécuter Echo Chamber avec des graines empoisonnées et des graines directrices. Lors de la première tentative, les graines de direction étaient trop fortes, ce qui a déclenché les mesures de protection du modèle et l'a amené à signaler l'interaction comme étant malveillante. Lors de l'essai suivant, ils ont utilisé des graines de guidage moins fortes et avons suivi le processus complet de la chambre d'écho : introduction d'un contexte empoisonné, sélection d'un chemin de conversation et lancement du cycle de persuasion.
Bien que le cycle de persuasion ait poussé le modèle vers l'objectif nuisible, il n'était pas suffisant en soi. C'est alors que Crescendo a donné le coup de pouce nécessaire. Avec seulement deux tours supplémentaires, l'approche combinée a réussi à susciter la réponse cible.
Encouragés par ce résultat, ils ont testé d'autres exemples afin d'évaluer si cette méthode pouvait être généralisée à d'autres objectifs nuisibles.
Intégration d'Echo Chamber et de Crescendo
Echo Chamber peut être facilement combinée avec d'autres techniques. La figure suivante présente un flux de travail simplifié illustrant l'interaction entre Echo Chamber et Crescendo.
L'attaque commence avec la méthode Echo Chamber, qui inclut une vérification supplémentaire dans le cycle de persuasion pour détecter les progrès "périmés", c'est-à-dire les situations où la conversation ne progresse plus de manière significative vers l'objectif. Dans ce cas, Crescendo intervient pour donner un coup de pouce supplémentaire à la cible. Ce coup de pouce supplémentaire réussit généralement en deux itérations. À ce stade, soit le modèle détecte l'intention malveillante et refuse de répondre, soit l'attaque réussit et le modèle produit un résultat nuisible.
Expériences
Pour mieux évaluer l'efficacité de cet approche, l'équipe de NeuralTrust a sélectionné manuellement plusieurs objectifs malveillants dans l'article de Crescendo, en se concentrant spécifiquement sur les invites liées à des activités illégales. Ils ont ensuite testé ces objectifs sur Grok-4 en utilisant une combinaison d'Echo Chamber et de Crescendo.
Les résultats montrent que l'attaque a réussi dans une grande partie des tentatives. Plus précisément, ils ont obtenu un taux de réussite de 67 % pour l'objectif Molotov, de 50 % pour l'objectif Meth et de 30 % pour Toxin. Notamment, dans un cas, le modèle a atteint l'objectif malveillant en un seul tour, sans nécessiter l'étape Crescendo.
Voici les conclusions de l'équipe de NeuralTrust :
Nous avons démontré l'efficacité de la combinaison d'Echo Chamber et de Crescendo pour améliorer le succès de l'incitation contradictoire. En appliquant cette méthode à Grok-4, nous avons pu jailbreaker le modèle et atteindre des objectifs nuisibles sans émettre une seule invite explicitement malveillante. Cela met en évidence une vulnérabilité critique : les attaques peuvent contourner le filtrage basé sur l'intention ou les mots-clés en exploitant le contexte conversationnel plus large plutôt qu'en s'appuyant sur une entrée ouvertement nuisible. Nos résultats soulignent l'importance d'évaluer les défenses LLM dans des contextes multi-tours où une manipulation subtile et persistante peut conduire à un comportement inattendu du modèle.
NeuralTrust est une société leader dans le domaine de la sécurité et de la gouvernance de l'IA, offrant des solutions d'audit, de gestion des risques et de conformité en temps réel pour l'IA générative. Sa technologie propriétaire Big Data AI aide les entreprises à déployer des systèmes d'IA de manière sécurisée et transparente, en garantissant la conformité avec les normes réglementaires et les directives éthiques.
Source : NeuralTrust
Et vous ?


Voir aussi :



Vous avez lu gratuitement 39 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.