Les autorités fédérales ont paniqué à propos de Fable 5 après un simple prompt du type « corrigez ce code » et non à cause d'un jailbreak,

L'interdiction prive le secteur d'un outil de détection précieux

Le 16 juin 2026 à 18:01, par Mathis Lucas

728PARTAGES

La Maison Blanche a provoqué la colère des utilisateurs en restreignant l'accès aux modèles d'IA Fable 5 et Mythos d'Anthropic pour des raisons de sécurité nationale. Les autorités fédérales auraient pris cette décision à la suite de rumeurs sur un potentiel jailbreak de Fable 5. Mais la chercheuse en cybersécurité Katie Moussouris conteste cette décision, soulignant que le prétendu piratage n'était en réalité qu'une simple demande de correction de code. D'après elle, cette mesure prive les spécialistes en cybersécurité de moyens essentiels pour identifier et réparer les vulnérabilités logicielles. La Chine est également soupçonnée d'avoir eu accès à Mythos.

Claude Fable 5 a été mis à la disposition du grand public le 9 juin, lorsqu’Anthropic l'a présenté comme un puissant modèle d'IA de classe Mythos doté de mesures de sécurité qui restreignent son utilisation dans des domaines à haut risque comme la cybersécurité, où Mythos s'est révélé très efficace. Le système bascule automatiquement vers le modèle moins performant Claude Opus 4.8 lorsqu'il détecte un usage potentiellement malveillant.

Mais le 12 juin, l'administration Trump a brusquement émis une directive de contrôle des exportations exigeant la suspension de l'accès aux modèles d'IA Fable 5 et Mythos 5 d'Anthropic pour tout ressortissant étranger, en invoquant des préoccupations liées à la sécurité nationale. Ainsi, pour garantir sa conformité avec ces exigences gouvernementales, Anthropic a pris la décision de désactiver ces deux modèles pour l'ensemble de ses utilisateurs.

Une interdiction basée sur des allégations infondées de jailbreak

« Le jailbreak qui a poussé l'administration Trump à bloquer les modèles les plus avancés d'Anthropic n'était en réalité qu'une simple instruction de trois mots : "corrige ce code" », affirme Katie Moussouris, fondatrice et PDG de Luta Security et figure respectée dans le domaine de la cybersécurité. Elle a indiqué être la seule experte externe à avoir eu accès au rapport de recherche en question. Anthropic lui aurait transmis le document en privé.

Les chercheurs externes auraient fourni aux modèles Fable 5, Mythos et Claude Opus d’Anthropic du code open source contenant des vulnérabilités connues, ainsi que du nouveau code intentionnellement truffé de vulnérabilités, et auraient demandé aux modèles d’examiner le code à la recherche de problèmes de sécurité. Selon le récit de Katie Moussouris, Fable 5 a refusé, alors les chercheurs ont simplement demandé aux systèmes d’IA de corriger ce code.

Le modèle a accédé à cette instruction basique ("fix this code") et a généré, suite à d'autres prompts, des scripts pour tester les correctifs. Katie Moussouris précise que ces actions ne devraient jamais déclencher une directive de contrôle à l'exportation, car elles représentent la fonction la plus précieuse qu'un modèle d'IA puisse accomplir pour la sécurité défensive : exécuter la boucle quotidienne de recherche, de correction et de test des failles.

Katie Moussouris a une longue expérience sur le sujet. Entre 2013 et 2017, Katie Moussouris a siégé au sein du groupe d’experts techniques chargé de renégocier l’Arrangement de Wassenaar, un accord volontaire entre 42 pays qui régit certains contrôles à l’exportation concernant les logiciels et technologies à double usage classifiés. Le groupe a finalement obtenu des dérogations pour les activités défensives en matière de cybersécurité.

Cela permet aux experts en cybersécurité de partager des données sur les vulnérabilités, de mener des analyses de logiciels malveillants et de coordonner la réponse aux incidents à l’échelle internationale sans risquer de poursuites pénales. Cette interdiction va à l'encontre de ce principe.

Les conséquences négatives pour les défenseurs informatiques

Face à cette interdiction, plus d'une centaine de leaders de la cybersécurité, dont Katie Moussouris elle-même, ont signé une lettre ouverte exhortant l'administration à annuler ces restrictions et à restaurer l'accès à ces modèles avancés pour les entreprises de sécurité. Les experts estiment qu'il est très dangereux de retirer leurs meilleures capacités de défense aux professionnels de la sécurité alors que les adversaires continuent de progresser.

De plus, Katie Moussouris prévient que les États-Unis ne peuvent de toute façon pas étendre ces contrôles d'exportation aux modèles à poids ouverts ou aux systèmes développés par des pays concurrents comme la Chine, qui atteindront bientôt des capacités équivalentes à celles de Fable 5 ou Mythos.

Dans un billet de blogue publié récemment, la fondatrice de Luta Security a fait valoir qu’il n’y a eu ni contournement des mesures de sécurité ni jailbreak. Au final, cette interdiction pénalisera beaucoup plus les professionnels de la sécurité que les cybercriminels, car la défense informatique repose sur la capacité des défenseurs à trouver et à corriger les failles plus rapidement que les attaquants grâce aux meilleurs outils de détection disponibles.

« Les responsables de la sécurité devraient pouvoir demander aux systèmes d’IA de détecter et de corriger des bogues, puis d’écrire des tests pour valider le correctif », a-t-elle déclaré. « Les modèles d’Anthropic accomplissaient la tâche la plus précieuse qu’un modèle d’IA puisse réaliser en matière de sécurité défensive : exécuter la boucle de détection, de correction et de test que les responsables de la sécurité effectuent chaque jour ».

Anthropic dément les allégations concernant le jailbreak de Fable

Anthropic a déclaré avoir mené des tests de sécurité approfondis, tant en interne qu'en externe, afin de s'assurer que « Fable 5 ne puisse pas être facilement jailbreaké ». Cependant, peu après sa sortie, un individu connu sous le pseudonyme de « Pliny the Liberator », réputé pour ses jailbreaks de l'IA, a affirmé avoir « libéré » Fable 5 en contournant sa couche de sécurité restrictive. L'outil a suscité une telle attention que Washington s'en est mêlé.

Le hacker a expliqué dans un billet de blogue publié sur X (ex-Twitter) avoir utilisé des méthodes sophistiquées de prompting multiagents IA, parvenant ainsi à obtenir des informations utiles sur des sujets sensibles, tels que la cybersécurité, la chimie, la manipulation psychologique et les explosifs. (Anthropic avait configuré le modèle de manière à ce qu'il altère ou bloque les prompts jugés malveillants et rétrograde l'utilisateur vers Claude Opus 4.8.)

Pliny the Liberator a publié plusieurs captures d’écran à l’appui de ses affirmations et a divulgué ce qui serait le script interne de Fable 5, qui contient des instructions définissant sa personnalité, ses classificateurs de sécurité, ses comportements de secours, ses directives de ton et sa logique de refus.

Interrogé par SecurityWeek, un porte-parole d’Anthropic a déclaré que la publication du chercheur ne démontre pas un contournement des systèmes de sécurité de Fable 5. L'entreprise affirme que de véritables contournements devraient passer outre ses mesures de sécurité fondamentales et fournir une aide significative pour des activités à haut risque telles que le développement d’armes biologiques ou des cyberattaques très sophistiquées.

Au contraire, l’approche présentée consiste à amener le modèle à continuer de répondre malgré ses refus conversationnels, ce qui constitue une limitation bien connue présente dans presque tous les grands modèles de langage. Le laboratoire affirme qu'un examen plus large de l'utilisation récente n'a révélé aucune preuve que leurs mesures de sécurité aient été contournées avec succès pour générer du contenu véritablement dangereux.

Sources : lettre ouverte des chercheurs, Luta Security, billet de blogue

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'interdiction de Mythos et Fable par la Maison Blanche ?

Cette décision est-elle pertinente ? Certains critiques pensent qu'elle est infondée. Qu'en pensez-vous ?

Y a-t-il lieu de s'inquiéter à propos des capacités de ces outils ? Ou s'agit-il une fois encore d'un battage médiatique ?

Voir aussi

Anthropic présente ses excuses pour les mesures de sécurité invisibles de Claude Fable 5. L'entreprise altère délibérément les réponses aux prompts soupçonnés de viser la distillation du modèle

Anthropic lance Claude Fable 5, un modèle d'IA de classe Mythos doté d'un nouvel ensemble de mesures de sécurité visant à empêcher que ses capacités les plus dangereuses ne tombent entre de mauvaises mains

Les chercheurs en cybersécurité sont mécontents des mesures de sécurité mises en place pour le modèle Fable d'Anthropic, elles augmentent le nombre de faux positifs et bloquent même les requêtes banales

Vous avez lu gratuitement 591 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les autorités fédérales ont paniqué à propos de Fable 5 après un simple prompt du type « corrigez ce code » et non à cause d'un jailbreak,

L'interdiction prive le secteur d'un outil de détection précieux

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les autorités fédérales ont paniqué à propos de Fable 5 après un simple prompt du type « corrigez ce code » et non à cause d'un jailbreak, L'interdiction prive le secteur d'un outil de détection précieux

Les autorités fédérales ont paniqué à propos de Fable 5 après un simple prompt du type « corrigez ce code » et non à cause d'un jailbreak,

L'interdiction prive le secteur d'un outil de détection précieux