IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Anthropic présente ses excuses pour les mesures de sécurité invisibles de Claude Fable 5. L'entreprise altère délibérément les réponses aux prompts soupçonnés de viser la distillation du modèle

Le , par Mathis Lucas

61PARTAGES

3  0 
Anthropic présente ses excuses pour les mesures de sécurité invisibles de Claude Fable 5. L'entreprise altère délibérément les réponses aux prompts soupçonnés de viser la distillation du modèle

Anthropic a présenté ses excuses pour les restrictions « invisibles » intégrées à son nouveau modèle d'IA Claude Fable 5. Ces mesures visaient initialement à empêcher la distillation, une technique permettant d'entraîner des modèles concurrents en utilisant les données générées par le système. À la suite des critiques de la communauté des chercheurs, la société a admis que ce manque de transparence constituait une erreur stratégique. Désormais, toute activation de garde-fous sera clairement signalée à l'utilisateur, entraînant souvent une redirection vers une version plus ancienne du logiciel. Les restrictions excessives suscitent le mécontentement.

Anthropic a lancé son modèle Claude Fable 5 le 9 juin 2026. Il appartient à la classe Mythos (le niveau de capacité le plus élevé de la gamme) et est conçu pour des tâches longues, complexes et autonomes : grands projets de code, recherche approfondie, workflows multiétapes en entreprise. Claude Fable 5 peut travailler plusieurs jours de suite dans un environnement agentique, planifier, déléguer à des sous-agents et vérifier lui-même son travail.

Anthropic avait auparavant refusé de publier Claude Mythos. Dans le cas de Fable, la société a déclaré que ce déploiement à grande échelle a été rendu possible grâce à de nouvelles mesures de sécurité qui bloquent les réponses dans certains domaines à haut risque, notamment la cybersécurité et la biologie.

« Pour nous, il s’agit vraiment de ce que nous appelons la “course vers le sommet”, c’est-à-dire être en mesure de fournir cette technologie de manière utile, tout en mettant en place les garde-fous de sécurité appropriés afin qu’elle apporte, de manière asymétrique, plus d’avantages que d'inconvénients », a expliqué Dianne Penn, responsable de la gestion des produits de recherche chez Anthropic, lors d’une interview accordée récemment à CNBC.

Le problème des restrictions cachées du modèle Claude Fable 5

La société a été trop loin en matière de restriction. Anthropic a présenté ses excuses pour avoir mis en place des mesures de sécurité secrètes sur Claude Fable 5, qui bridaient silencieusement les performances du système. Claude Fable est le tout premier modèle de la classe Mythos largement disponible. Mythos est un groupe de systèmes que l'entreprise considérait depuis des mois comme potentiellement trop dangereux pour un lancement public.


Pour atténuer ces risques, des garde-fous ont été intégrés afin d'empêcher les réponses aux requêtes à haut risque, notamment celles liées à la « distillation », une technique controversée qui consiste à utiliser les informations extraites d'un modèle performant pour en entraîner des plus petits. Anthropic altère et dégrade délibérément les réponses aux prompts soupçonnés de viser la distillation, et ce, de manière totalement invisible pour les utilisateurs.

Cette limitation silencieuse a provoqué de vives critiques au sein de la communauté des chercheurs en IA, car elle affectait également les tiers cherchant simplement à évaluer les capacités de ce modèle de pointe. Anthropic s'est expliquée sur les raisons l'ayant poussée à adopter cette méthode controversée. L'entreprise a précisé que les mesures de sécurité invisibles permettaient un déploiement rapide et ciblé de l'outil avec très peu de faux positifs.

Citation Envoyé par Anthropic, dans la fiche technique de Claude Fable 5

Contrairement à nos interventions en matière de cybersécurité, de biologie et de chimie, ainsi qu’à nos tentatives de distillation, ces mesures de sécurité ne seront pas visibles pour l’utilisateur. Fable 5 ne se rabattra pas sur un autre modèle. Au lieu de cela, les mesures de sécurité limiteront l’efficacité par des méthodes telles que la modification des prompts, les vecteurs de pilotage ou le réglage fin efficace en termes de paramètres (PEFT).
À l'inverse, les restrictions visibles doivent être beaucoup plus robustes, car elles peuvent être testées et contournées par les utilisateurs, ce qui demande beaucoup de temps de développement. Par ailleurs, Anthropic justifie le ciblage de la distillation en rappelant que l'utilisation de Claude pour créer des modèles concurrents enfreint ses conditions d'utilisation. L'entreprise avait accusé par le passé DeepSeek d'avoir utilisé cette technique sur ses modèles.

Anthropic clarifie le nouveau fonctionnement de Claude Fable 5

Les filtres de sécurité invisibles de Claude Fable 5 ont suscité de vives critiques, même si certains utilisateurs ont qualifié ces mesures de « raisonnables ». Anthropic a admis qu'il s'agissait d'un mauvais compromis, déclarant que les utilisateurs méritaient d'avoir une visibilité claire sur les garde-fous intégrés et de comprendre leurs raisons d'être. L'entreprise s'engage donc désormais à inverser la tendance en faveur d'une plus grande transparence.

Pour corriger ce problème de transparence, Anthropic a mis en place une nouvelle approche pour les prompts identifiés comme des tentatives de distillation : ils basculeront automatiquement vers Claude Opus 4.8, l'ancien modèle phare de l'entreprise, et les utilisateurs en seront notifiés à chaque occurrence. Ce processus harmonise le traitement de la distillation avec celui d'autres domaines sensibles comme la biologie, la chimie ou la cybersécurité.

Dans ces secteurs spécifiques, les prompts déclenchant les dispositifs de sécurité sont également redirigés vers Claude Opus 4.8, à moins qu'ils ne soient purement et simplement bloqués en cas de violation des règles globales de sécurité sur les drogues, les armes ou d'autres contenus illicites. Il faut toutefois noter que cette prudence extrême a des répercussions sur l'expérience globale, créant notamment la colère des chercheurs en cybersécurité.

Cette situation souligne la difficulté de concilier la protection de la propriété intellectuelle avec les exigences d'honnêteté technique. En privilégiant la visibilité, Anthropic s'engage à clarifier les limites imposées à ses technologies les plus puissantes. Mais l'expérience des utilisateurs n'en ressort pas améliorée.

Des blocages intempestifs sur des requêtes jugées inoffensives

Bien que l'objectif principal de ces garde-fous soit de prévenir des risques majeurs, tels que la compromission de logiciels, le développement de programmes malveillants ou la création d'armes biologiques, les garde-fous de sécurité mis en place s'avèrent si stricts qu'ils nuisent considérablement à l'expérience des utilisateurs. Des utilisateurs, notamment des experts en cybersécurité, indiquent que les garde-fous du modèle les empêchent de travailler.


Selon certains récits, Fable 5 refuse fréquemment de répondre à des questions ou des commandes totalement banales, bloquant parfois l'interaction dès la simple saisie du mot "Hello". « [Fable] rejette toute demande pouvant avoir un lien, même indirect, avec la cybersécurité. Même des tâches anodines comme la lecture d'un billet de blogue », affirme Valentina « Chompie » Palmiotti, une chercheuse en sécurité réputée qui travaille chez IBM X-Force.

Un autre rapport indique le simple fait d'utiliser le mot « cancer » déclenche une alerte de risque pour la biosécurité. De plus, l'édition d'un CV d'architecte en sécurité applicative est purement et simplement rejetée par le système. Lorsqu'un prompt déclenche ses mécanismes de sécurité, Fable 5 met le chat en pause et indique que ses « mesures de sécurité ont signalé ce message comme portant sur des sujets liés à la cybersécurité ou à la biologie ».

Sur le réseau social X (ex-Twitter), Derya Unutmaz, immunologiste et professeur au Jackson Laboratory for Genomic Medicine, fait remarquer : « le mot “cancer” est signalé comme un risque pour la biosécurité par Claude Fable 5 ». Des plaintes similaires apparaissent dans des fils de discussion sur Reddit.

La frustration des spécialistes en sécurité et des programmeurs

Les experts en cybersécurité sont particulièrement entravés par ces filtres, car le modèle semble s'appuyer sur des mots-clés et rejette presque toute demande liée de près ou de loin au domaine de la sécurité. Le fait de demander à l'IA de réviser du code ou d'écrire un code sécurisé déclenche automatiquement les mesures de protection, car le système interprète cela comme une tâche de sécurité plutôt que comme une bonne pratique d'ingénierie logicielle.

Lorsqu'une requête est ainsi bloquée, le système rétrograde automatiquement l'utilisateur vers un modèle ancien, Claude Opus 4.8. Pour contourner ces limitations sévères, les professionnels de la sécurité doivent faire une demande d'admission à des programmes d'accès restreints d'Anthropic, comme le « Cyber Verification Program » ou le « Project Glasswing », qui leur permettent d'accéder au modèle Claude Mythos, dépourvu de ces mêmes barrières.

« C'est compréhensible, car nous n’en sommes qu’aux prémices et ils sont encore en train d’adapter leurs filtres. Je suis sûr qu’ils vont évoluer avec le temps, à mesure qu’Anthropic et d’autres entreprises pionnières dans le domaine des modèles collaboreront davantage avec la nouvelle génération d’entreprises de cybersécurité », a déclaré Matt Suiche, membre de l’équipe technique de Tolmo, une startup spécialisée dans la cybersécurité basée sur l’IA.

Un porte-parole d’Anthropic a reconnu que les filtres sont trop stricts et a indiqué que la société s’efforçait également de réduire les faux positifs pour la recherche biologique. « Nous modifions les mesures de protection de Fable 5 pour le développement de LLM de pointe afin de les rendre visibles ». Parmi les corrections, les prompts signalés reviendront de manière visible à Claude Opus 4.8. Sur l’API, tout prompt signalé indiquera la raison de son refus.

Sources : Anthropic (PDF), billet de blogue

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la polémique provoquée par les restrictions invisibles de Claude Fable 5 ?
Que pensez-vous des mesures de sécurité strictes du modèle Claude Fable 5 d'Anthropic ?
Les utilisateurs affirment que ces garde-fous rendent le modèle presque inutilisable. Qu'en pensez-vous ?

Voir aussi

Les chercheurs en cybersécurité sont mécontents des mesures de sécurité mises en place pour le modèle Fable d'Anthropic, elles augmentent le nombre de faux positifs et bloquent même les requêtes banales

La NSA utilise Claude Mythos d'Anthropic pour mener des cyberattaques contre les réseaux informatiques de pays comme la Chine ou l'Iran, considérant que « l'offensive bien menée demeure la meilleure défense »

Anthropic lance Claude Fable 5, un modèle d'IA de classe Mythos doté d'un nouvel ensemble de mesures de sécurité visant à empêcher que ses capacités les plus dangereuses ne tombent entre de mauvaises mains
Vous avez lu gratuitement 74 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 16/06/2026 à 18:35
Il est probable que cela n'est rien à voir avec la cybersécurité, mais plus avec la géopolitique pour envoyer des messages :
- "Attention, on peut vous couper nos services" pour les européens.
- "Attention, on a des super-IA dangereuses" pour les chinois, russes ou iraniens.
- "Nous sommes toujours une super-puissance avancée" pour la politique intérieure.
2  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 17/06/2026 à 12:23
Cet incident a durablement érodé la confiance internationale envers les fournisseurs de technologie américains.
A parce qu'il y a encore des gens pour faire confiance aux USA???

Et bien, la situation est encore plus grave que ce que je pensais...
2  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 16/06/2026 à 14:17
désactivation du puissant modèle d’IA d’Anthropic sur ordre du gouvernement américain
Faisons l'impasse sur cette anecdote et prenons la peine d'une réflexion plus globale voir stratégique...

On a donc un continent européen, la totalité de ses entreprises, de ses administrations, de ses armées qui font appel à l'IA bien évidemment américaine puisque l'Europe est à la traine comme toujours...

Et là, sur un ordre du gouvernement US, l'IA est tout simplement bloquée pour les non-américains... Que se passe-t-il pour les "neuneux" européens?

Aujourd'hui, rien parce que contrairement à ce que certains veulent nous faire croire, l'IA relève plus du gadget que de l'outil indispensable et généralisé

Mais demain, quand l'IA dominera? Et bien, ce sera tout simplement le retour au Moyen-Age de l'Europe en moins de 24 heures!!!

---

Pour se convaincre à quel point on est à la ramasse: Ce matin à la radio suisse intervient la présidente de l'Ecole Polytechnique de Lausanne, Anna Fontcuberta i Morral. qui se vante des grandes avancées de son école dans l'IA avec sa propre IA nommée "Apertus". Et là, elle sort dans la même phrase un "On a rien à envier aux IA américaine, on est à la pointe de la technologie... Euh... C'est à dire très loin des américains"?!?!?

Mon dieu, en plein milieu d'interview, voilà que la dame a été touchée par la révélation divine... Elle s'est dit "bon, je fais la pub de l'école mais là je vais trop loin, je raconte des conneries"
1  0