IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les chercheurs en cybersécurité sont mécontents des mesures de sécurité mises en place pour le modèle Fable d'Anthropic,
Elles augmentent le nombre de faux positifs et bloquent même les requêtes banales

Le , par Mathis Lucas

63PARTAGES

14  0 
Les chercheurs en cybersécurité sont mécontents des mesures de sécurité mises en place pour le modèle Fable d'Anthropic
elles augmentent le nombre de faux positifs et bloquent même les requêtes banales

Les experts en cybersécurité sont frustrés par les restrictions excessives du modèle Claude Fable 5 d'Anthropic. Bien qu'Anthropic cherche à empêcher la création de logiciels malveillants, ses mesures de sécurité bloquent fréquemment des prompts légitimes et inoffensifs. Les chercheurs déplorent que des tâches simples, comme l'analyse de code, déclenchent systématiquement des filtres de protection basés sur des mots-clés. Certains critiques plus radicaux jugent ces filtres rédhibitoires. Pour contourner ces limitations, les professionnels doivent désormais s'inscrire à un programme de vérification spécifique afin d'accéder à des fonctionnalités avancées.

Anthropic a lancé son modèle Claude Fable 5 le 9 juin 2026. Il appartient à la classe Mythos (le niveau de capacité le plus élevé de la gamme) et est conçu pour des tâches longues, complexes et autonomes : grands projets de code, recherche approfondie, workflows multiétapes en entreprise. Claude Fable 5 peut travailler plusieurs jours de suite dans un environnement agentique, planifier, déléguer à des sous-agents et vérifier lui-même son travail.

Anthropic avait auparavant refusé de publier Claude Mythos. Dans le cas de Fable, la société a déclaré que ce déploiement à grande échelle a été rendu possible grâce à de nouvelles mesures de sécurité qui bloquent les réponses dans certains domaines à haut risque, notamment la cybersécurité et la biologie.

« Pour nous, il s’agit vraiment de ce que nous appelons la “course vers le sommet”, c’est-à-dire être en mesure de fournir cette technologie de manière utile, tout en mettant en place les garde-fous de sécurité appropriés afin qu’elle apporte, de manière asymétrique, plus d’avantages que d'inconvénients », a expliqué Dianne Penn, responsable de la gestion des produits de recherche chez Anthropic, lors d’une interview accordée récemment à CNBC.

Des blocages intempestifs sur des requêtes jugées inoffensives

Bien que l'objectif principal de ces garde-fous soit de prévenir des risques majeurs, tels que la compromission de logiciels, le développement de programmes malveillants ou la création d'armes biologiques, les garde-fous de sécurité mis en place s'avèrent si stricts qu'ils nuisent considérablement à l'expérience des utilisateurs. Des utilisateurs, notamment des experts en cybersécurité, indiquent que les garde-fous du modèle les empêchent de travailler.


Selon certains récits, Fable 5 refuse fréquemment de répondre à des questions ou des commandes totalement banales, bloquant parfois l'interaction dès la simple saisie du mot "Hello". « [Fable] rejette toute demande pouvant avoir un lien, même indirect, avec la cybersécurité. Même des tâches anodines comme la lecture d'un billet de blogue », affirme Valentina « Chompie » Palmiotti, une chercheuse en sécurité réputée qui travaille chez IBM X-Force.

Un autre rapport indique le simple fait d'utiliser le mot « cancer » déclenche une alerte de risque pour la biosécurité. De plus, l'édition d'un CV d'architecte en sécurité applicative est purement et simplement rejetée par le système. Lorsqu'un prompt déclenche ses mécanismes de sécurité, Fable 5 met le chat en pause et indique que ses « mesures de sécurité ont signalé ce message comme portant sur des sujets liés à la cybersécurité ou à la biologie ».

Sur le réseau social X (ex-Twitter), Derya Unutmaz, immunologiste et professeur au Jackson Laboratory for Genomic Medicine, fait remarquer : « le mot “cancer” est signalé comme un risque pour la biosécurité par Claude Fable 5 ». Des plaintes similaires apparaissent dans des fils de discussion sur Reddit.

La frustration des spécialistes en sécurité et des programmeurs

Les experts en cybersécurité sont particulièrement entravés par ces filtres, car le modèle semble s'appuyer sur des mots-clés et rejette presque toute demande liée de près ou de loin au domaine de la sécurité. Le fait de demander à l'IA de réviser du code ou d'écrire un code sécurisé déclenche automatiquement les mesures de protection, car le système interprète cela comme une tâche de sécurité plutôt que comme une bonne pratique d'ingénierie logicielle.


Lorsqu'une requête est ainsi bloquée, le système rétrograde automatiquement l'utilisateur vers un modèle ancien, Claude Opus 4.8. Pour contourner ces limitations sévères, les professionnels de la sécurité doivent faire une demande d'admission à des programmes d'accès restreints d'Anthropic, comme le « Cyber Verification Program » ou le « Project Glasswing », qui leur permettent d'accéder au modèle Claude Mythos, dépourvu de ces mêmes barrières.

« C'est compréhensible, car nous n’en sommes qu’aux prémices et ils sont encore en train d’adapter leurs filtres. Je suis sûr qu’ils vont évoluer avec le temps, à mesure qu’Anthropic et d’autres entreprises pionnières dans le domaine des modèles collaboreront davantage avec la nouvelle génération d’entreprises de cybersécurité », a déclaré Matt Suiche, membre de l’équipe technique de Tolmo, une startup spécialisée dans la cybersécurité basée sur l’IA.

Un porte-parole d’Anthropic a reconnu que les filtres sont trop strictes et a indiqué que la société s’efforçait également de réduire les faux positifs pour la recherche biologique. « Nous modifions les mesures de protection de Fable 5 pour le développement de LLM de pointe afin de les rendre visibles ». Parmi les corrections, les prompts signalés reviendront de manière visible à Claude Opus 4.8. Sur l’API, tout prompt signalé indiquera la raison de son refus.

La collaboration stratégique entre Anthropic et la NSA

Un rapport récent du Financial Times a révélé une collaboration étroite avec la NSA. Anthropic a mis en place un partenariat avec la NSA afin de déployer Claude Mythos pour des opérations de cyberattaques offensives. Dans le cadre de cet accord, environ une demi-douzaine d'ingénieurs d'Anthropic ont été intégrés directement au sein de l'agence fédérale pour guider l'utilisation de cette technologie et la personnaliser selon des besoins précis.


Bien qu'il ne soit pas confirmé que ces ingénieurs participent à des opérations actives, des sources affirment que Mythos serait particulièrement utile pour infiltrer les réseaux informatiques de pays comme la Chine ou l'Iran. Cette stratégie s'appuie sur l'idée qu'une bonne attaque constitue la meilleure défense, notamment parce que les adversaires des États-Unis développeraient très probablement leurs propres technologies offensives basées sur l'IA.

Le Pentagone chercherait d'ailleurs à créer des outils cybernétiques dopés à l'IA pour cibler les infrastructures chinoises en prévision d'un éventuel conflit. Claude Mythos s'avère idéal pour ce cas d'utilisation, bien que les bases juridiques de cette initiative suscitent des interrogations dans la communauté.

Annoncé début avril, Claude Mythos est présenté par Anthropic comme un modèle de langage polyvalent aux capacités remarquables en matière de sécurité informatique. Claude Mythos a été utilisé pour identifier des failles zero-day dans l'ensemble des grands systèmes d'exploitation et des navigateurs Web majeurs, ainsi que dans de nombreux autres logiciels critiques. La société a fait le choix délibéré de ne pas le rendre disponible au grand public.

L'hypocrisie éthique et la primauté des intérêts financiers

L'initiative suscite de vives critiques concernant le double discours d'Anthropic vis-à-vis de la sécurité. Des observateurs dénoncent une hypocrisie flagrante, rappelant que l'entreprise décrivait initialement son modèle Mythos comme trop dangereux pour être mis à la disposition du grand public. Le fait que la société permette à une agence gouvernementale de militariser son outil est perçu comme une évolution extrêmement prévisible et décevante.

Pour les critiques, l'engagement d'Anthropic en faveur de la sécurité n'est qu'une façade de relations publiques. Ils estiment qu'à l'approche de son introduction en bourse, l'entreprise privilégie ses intérêts financiers et cherche avant tout à satisfaire ses investisseurs et actionnaires, au détriment de ses principes éthiques.

La collaboration avec la NSA soulève également d'importantes inquiétudes quant aux dérives géopolitiques qu'elle pourrait engendrer. L'argument avancé pour justifier ce partenariat est le suivant : « la meilleure défense consiste à bâtir de bonnes capacités d'attaque ». Cependant, les critiques fustigent cet argument ; ils y voient notamment une excuse classique historiquement utilisée par les États-Unis pour violer les lois internationales.

Des critiques craignent que les autorités américaines n'exploitent ces modèles sans aucune véritable supervision, au risque de causer d'importants dommages collatéraux ou s'attaquant aux Américains. Par ailleurs, cette militarisation de l'IA laisse présager une dangereuse escalade à l'échelle mondiale, les commentateurs soulignant que les pays adversaires développeront et utiliseront inévitablement les mêmes stratégies offensives.

Source : Anthropic

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des filtres de sécurité strictes du modèle Claude Fable 5 d'Anthropic ?
Les utilisateurs affirment que ces garde-fous rendent le modèle presque inutilisable. Qu'en pensez-vous ?

Voir aussi

La NSA utilise Claude Mythos d'Anthropic pour mener des cyberattaques contre les réseaux informatiques de pays comme la Chine ou l'Iran, considérant que « l'offensive bien menée demeure la meilleure défense »

Anthropic lance Claude Fable 5, un modèle d'IA de classe Mythos doté d'un nouvel ensemble de mesures de sécurité visant à empêcher que ses capacités les plus dangereuses ne tombent entre de mauvaises mains

Anthropic annonce qu'il ne commercialiserait pas son dernier modèle, Mythos, car celui-ci s'avère trop efficace pour détecter des failles de cybersécurité de gravité élevée dans les systèmes d'exploitation
Vous avez lu gratuitement 74 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 11/06/2026 à 21:02
Ils font tout pour se faire bien voir, coopère avec n'importe qui (ayant du pouvoir), pensent que l'IA devrait être contrôlée par une petite élite de sachant.
Anthropic serait hypocrite ? Nooooon ...
3  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 16/06/2026 à 18:35
Il est probable que cela n'est rien à voir avec la cybersécurité, mais plus avec la géopolitique pour envoyer des messages :
- "Attention, on peut vous couper nos services" pour les européens.
- "Attention, on a des super-IA dangereuses" pour les chinois, russes ou iraniens.
- "Nous sommes toujours une super-puissance avancée" pour la politique intérieure.
2  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 17/06/2026 à 12:23
Cet incident a durablement érodé la confiance internationale envers les fournisseurs de technologie américains.
A parce qu'il y a encore des gens pour faire confiance aux USA???

Et bien, la situation est encore plus grave que ce que je pensais...
2  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 16/06/2026 à 14:17
désactivation du puissant modèle d’IA d’Anthropic sur ordre du gouvernement américain
Faisons l'impasse sur cette anecdote et prenons la peine d'une réflexion plus globale voir stratégique...

On a donc un continent européen, la totalité de ses entreprises, de ses administrations, de ses armées qui font appel à l'IA bien évidemment américaine puisque l'Europe est à la traine comme toujours...

Et là, sur un ordre du gouvernement US, l'IA est tout simplement bloquée pour les non-américains... Que se passe-t-il pour les "neuneux" européens?

Aujourd'hui, rien parce que contrairement à ce que certains veulent nous faire croire, l'IA relève plus du gadget que de l'outil indispensable et généralisé

Mais demain, quand l'IA dominera? Et bien, ce sera tout simplement le retour au Moyen-Age de l'Europe en moins de 24 heures!!!

---

Pour se convaincre à quel point on est à la ramasse: Ce matin à la radio suisse intervient la présidente de l'Ecole Polytechnique de Lausanne, Anna Fontcuberta i Morral. qui se vante des grandes avancées de son école dans l'IA avec sa propre IA nommée "Apertus". Et là, elle sort dans la même phrase un "On a rien à envier aux IA américaine, on est à la pointe de la technologie... Euh... C'est à dire très loin des américains"?!?!?

Mon dieu, en plein milieu d'interview, voilà que la dame a été touchée par la révélation divine... Elle s'est dit "bon, je fais la pub de l'école mais là je vais trop loin, je raconte des conneries"
1  0