Les chercheurs en cybersécurité sont mécontents des mesures de sécurité mises en place pour le modèle Fable d'Anthropic,

Elles augmentent le nombre de faux positifs et bloquent même les requêtes banales

Le 11 juin 2026 à 18:08, par Mathis Lucas

483PARTAGES

Les experts en cybersécurité sont frustrés par les restrictions excessives du modèle Claude Fable 5 d'Anthropic. Bien qu'Anthropic cherche à empêcher la création de logiciels malveillants, ses mesures de sécurité bloquent fréquemment des prompts légitimes et inoffensifs. Les chercheurs déplorent que des tâches simples, comme l'analyse de code, déclenchent systématiquement des filtres de protection basés sur des mots-clés. Certains critiques plus radicaux jugent ces filtres rédhibitoires. Pour contourner ces limitations, les professionnels doivent désormais s'inscrire à un programme de vérification spécifique afin d'accéder à des fonctionnalités avancées.

Anthropic a lancé son modèle Claude Fable 5 le 9 juin 2026. Il appartient à la classe Mythos (le niveau de capacité le plus élevé de la gamme) et est conçu pour des tâches longues, complexes et autonomes : grands projets de code, recherche approfondie, workflows multiétapes en entreprise. Claude Fable 5 peut travailler plusieurs jours de suite dans un environnement agentique, planifier, déléguer à des sous-agents et vérifier lui-même son travail.

Anthropic avait auparavant refusé de publier Claude Mythos. Dans le cas de Fable, la société a déclaré que ce déploiement à grande échelle a été rendu possible grâce à de nouvelles mesures de sécurité qui bloquent les réponses dans certains domaines à haut risque, notamment la cybersécurité et la biologie.

« Pour nous, il s’agit vraiment de ce que nous appelons la “course vers le sommet”, c’est-à-dire être en mesure de fournir cette technologie de manière utile, tout en mettant en place les garde-fous de sécurité appropriés afin qu’elle apporte, de manière asymétrique, plus d’avantages que d'inconvénients », a expliqué Dianne Penn, responsable de la gestion des produits de recherche chez Anthropic, lors d’une interview accordée récemment à CNBC.

Des blocages intempestifs sur des requêtes jugées inoffensives

Bien que l'objectif principal de ces garde-fous soit de prévenir des risques majeurs, tels que la compromission de logiciels, le développement de programmes malveillants ou la création d'armes biologiques, les garde-fous de sécurité mis en place s'avèrent si stricts qu'ils nuisent considérablement à l'expérience des utilisateurs. Des utilisateurs, notamment des experts en cybersécurité, indiquent que les garde-fous du modèle les empêchent de travailler.

Selon certains récits, Fable 5 refuse fréquemment de répondre à des questions ou des commandes totalement banales, bloquant parfois l'interaction dès la simple saisie du mot "Hello". « [Fable] rejette toute demande pouvant avoir un lien, même indirect, avec la cybersécurité. Même des tâches anodines comme la lecture d'un billet de blogue », affirme Valentina « Chompie » Palmiotti, une chercheuse en sécurité réputée qui travaille chez IBM X-Force.

Un autre rapport indique le simple fait d'utiliser le mot « cancer » déclenche une alerte de risque pour la biosécurité. De plus, l'édition d'un CV d'architecte en sécurité applicative est purement et simplement rejetée par le système. Lorsqu'un prompt déclenche ses mécanismes de sécurité, Fable 5 met le chat en pause et indique que ses « mesures de sécurité ont signalé ce message comme portant sur des sujets liés à la cybersécurité ou à la biologie ».

Sur le réseau social X (ex-Twitter), Derya Unutmaz, immunologiste et professeur au Jackson Laboratory for Genomic Medicine, fait remarquer : « le mot “cancer” est signalé comme un risque pour la biosécurité par Claude Fable 5 ». Des plaintes similaires apparaissent dans des fils de discussion sur Reddit.

La frustration des spécialistes en sécurité et des programmeurs

Les experts en cybersécurité sont particulièrement entravés par ces filtres, car le modèle semble s'appuyer sur des mots-clés et rejette presque toute demande liée de près ou de loin au domaine de la sécurité. Le fait de demander à l'IA de réviser du code ou d'écrire un code sécurisé déclenche automatiquement les mesures de protection, car le système interprète cela comme une tâche de sécurité plutôt que comme une bonne pratique d'ingénierie logicielle.

Lorsqu'une requête est ainsi bloquée, le système rétrograde automatiquement l'utilisateur vers un modèle ancien, Claude Opus 4.8. Pour contourner ces limitations sévères, les professionnels de la sécurité doivent faire une demande d'admission à des programmes d'accès restreints d'Anthropic, comme le « Cyber Verification Program » ou le « Project Glasswing », qui leur permettent d'accéder au modèle Claude Mythos, dépourvu de ces mêmes barrières.

« C'est compréhensible, car nous n’en sommes qu’aux prémices et ils sont encore en train d’adapter leurs filtres. Je suis sûr qu’ils vont évoluer avec le temps, à mesure qu’Anthropic et d’autres entreprises pionnières dans le domaine des modèles collaboreront davantage avec la nouvelle génération d’entreprises de cybersécurité », a déclaré Matt Suiche, membre de l’équipe technique de Tolmo, une startup spécialisée dans la cybersécurité basée sur l’IA.

Un porte-parole d’Anthropic a reconnu que les filtres sont trop strictes et a indiqué que la société s’efforçait également de réduire les faux positifs pour la recherche biologique. « Nous modifions les mesures de protection de Fable 5 pour le développement de LLM de pointe afin de les rendre visibles ». Parmi les corrections, les prompts signalés reviendront de manière visible à Claude Opus 4.8. Sur l’API, tout prompt signalé indiquera la raison de son refus.

La collaboration stratégique entre Anthropic et la NSA

Un rapport récent du Financial Times a révélé une collaboration étroite avec la NSA. Anthropic a mis en place un partenariat avec la NSA afin de déployer Claude Mythos pour des opérations de cyberattaques offensives. Dans le cadre de cet accord, environ une demi-douzaine d'ingénieurs d'Anthropic ont été intégrés directement au sein de l'agence fédérale pour guider l'utilisation de cette technologie et la personnaliser selon des besoins précis.

Bien qu'il ne soit pas confirmé que ces ingénieurs participent à des opérations actives, des sources affirment que Mythos serait particulièrement utile pour infiltrer les réseaux informatiques de pays comme la Chine ou l'Iran. Cette stratégie s'appuie sur l'idée qu'une bonne attaque constitue la meilleure défense, notamment parce que les adversaires des États-Unis développeraient très probablement leurs propres technologies offensives basées sur l'IA.

Le Pentagone chercherait d'ailleurs à créer des outils cybernétiques dopés à l'IA pour cibler les infrastructures chinoises en prévision d'un éventuel conflit. Claude Mythos s'avère idéal pour ce cas d'utilisation, bien que les bases juridiques de cette initiative suscitent des interrogations dans la communauté.

Annoncé début avril, Claude Mythos est présenté par Anthropic comme un modèle de langage polyvalent aux capacités remarquables en matière de sécurité informatique. Claude Mythos a été utilisé pour identifier des failles zero-day dans l'ensemble des grands systèmes d'exploitation et des navigateurs Web majeurs, ainsi que dans de nombreux autres logiciels critiques. La société a fait le choix délibéré de ne pas le rendre disponible au grand public.

L'hypocrisie éthique et la primauté des intérêts financiers

L'initiative suscite de vives critiques concernant le double discours d'Anthropic vis-à-vis de la sécurité. Des observateurs dénoncent une hypocrisie flagrante, rappelant que l'entreprise décrivait initialement son modèle Mythos comme trop dangereux pour être mis à la disposition du grand public. Le fait que la société permette à une agence gouvernementale de militariser son outil est perçu comme une évolution extrêmement prévisible et décevante.

Pour les critiques, l'engagement d'Anthropic en faveur de la sécurité n'est qu'une façade de relations publiques. Ils estiment qu'à l'approche de son introduction en bourse, l'entreprise privilégie ses intérêts financiers et cherche avant tout à satisfaire ses investisseurs et actionnaires, au détriment de ses principes éthiques.

La collaboration avec la NSA soulève également d'importantes inquiétudes quant aux dérives géopolitiques qu'elle pourrait engendrer. L'argument avancé pour justifier ce partenariat est le suivant : « la meilleure défense consiste à bâtir de bonnes capacités d'attaque ». Cependant, les critiques fustigent cet argument ; ils y voient notamment une excuse classique historiquement utilisée par les États-Unis pour violer les lois internationales.

Des critiques craignent que les autorités américaines n'exploitent ces modèles sans aucune véritable supervision, au risque de causer d'importants dommages collatéraux ou s'attaquant aux Américains. Par ailleurs, cette militarisation de l'IA laisse présager une dangereuse escalade à l'échelle mondiale, les commentateurs soulignant que les pays adversaires développeront et utiliseront inévitablement les mêmes stratégies offensives.

Source : Anthropic

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des filtres de sécurité strictes du modèle Claude Fable 5 d'Anthropic ?

Les utilisateurs affirment que ces garde-fous rendent le modèle presque inutilisable. Qu'en pensez-vous ?

Voir aussi

La NSA utilise Claude Mythos d'Anthropic pour mener des cyberattaques contre les réseaux informatiques de pays comme la Chine ou l'Iran, considérant que « l'offensive bien menée demeure la meilleure défense »

Anthropic lance Claude Fable 5, un modèle d'IA de classe Mythos doté d'un nouvel ensemble de mesures de sécurité visant à empêcher que ses capacités les plus dangereuses ne tombent entre de mauvaises mains

Anthropic annonce qu'il ne commercialiserait pas son dernier modèle, Mythos, car celui-ci s'avère trop efficace pour détecter des failles de cybersécurité de gravité élevée dans les systèmes d'exploitation

Vous avez lu gratuitement 503 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :