Anthropic présente ses excuses pour les mesures de sécurité invisibles de Claude Fable 5. L'entreprise altère délibérément les réponses aux prompts soupçonnés de viser la distillation du modèle

Le 12 juin 2026 à 17:27, par Mathis Lucas

239PARTAGES

Anthropic a présenté ses excuses pour les restrictions « invisibles » intégrées à son nouveau modèle d'IA Claude Fable 5. Ces mesures visaient initialement à empêcher la distillation, une technique permettant d'entraîner des modèles concurrents en utilisant les données générées par le système. À la suite des critiques de la communauté des chercheurs, la société a admis que ce manque de transparence constituait une erreur stratégique. Désormais, toute activation de garde-fous sera clairement signalée à l'utilisateur, entraînant souvent une redirection vers une version plus ancienne du logiciel. Les restrictions excessives suscitent le mécontentement.

Anthropic a lancé son modèle Claude Fable 5 le 9 juin 2026. Il appartient à la classe Mythos (le niveau de capacité le plus élevé de la gamme) et est conçu pour des tâches longues, complexes et autonomes : grands projets de code, recherche approfondie, workflows multiétapes en entreprise. Claude Fable 5 peut travailler plusieurs jours de suite dans un environnement agentique, planifier, déléguer à des sous-agents et vérifier lui-même son travail.

Anthropic avait auparavant refusé de publier Claude Mythos. Dans le cas de Fable, la société a déclaré que ce déploiement à grande échelle a été rendu possible grâce à de nouvelles mesures de sécurité qui bloquent les réponses dans certains domaines à haut risque, notamment la cybersécurité et la biologie.

« Pour nous, il s’agit vraiment de ce que nous appelons la “course vers le sommet”, c’est-à-dire être en mesure de fournir cette technologie de manière utile, tout en mettant en place les garde-fous de sécurité appropriés afin qu’elle apporte, de manière asymétrique, plus d’avantages que d'inconvénients », a expliqué Dianne Penn, responsable de la gestion des produits de recherche chez Anthropic, lors d’une interview accordée récemment à CNBC.

Le problème des restrictions cachées du modèle Claude Fable 5

La société a été trop loin en matière de restriction. Anthropic a présenté ses excuses pour avoir mis en place des mesures de sécurité secrètes sur Claude Fable 5, qui bridaient silencieusement les performances du système. Claude Fable est le tout premier modèle de la classe Mythos largement disponible. Mythos est un groupe de systèmes que l'entreprise considérait depuis des mois comme potentiellement trop dangereux pour un lancement public.

Pour atténuer ces risques, des garde-fous ont été intégrés afin d'empêcher les réponses aux requêtes à haut risque, notamment celles liées à la « distillation », une technique controversée qui consiste à utiliser les informations extraites d'un modèle performant pour en entraîner des plus petits. Anthropic altère et dégrade délibérément les réponses aux prompts soupçonnés de viser la distillation, et ce, de manière totalement invisible pour les utilisateurs.

Cette limitation silencieuse a provoqué de vives critiques au sein de la communauté des chercheurs en IA, car elle affectait également les tiers cherchant simplement à évaluer les capacités de ce modèle de pointe. Anthropic s'est expliquée sur les raisons l'ayant poussée à adopter cette méthode controversée. L'entreprise a précisé que les mesures de sécurité invisibles permettaient un déploiement rapide et ciblé de l'outil avec très peu de faux positifs.

Envoyé par Anthropic, dans la fiche technique de Claude Fable 5

Contrairement à nos interventions en matière de cybersécurité, de biologie et de chimie, ainsi qu’à nos tentatives de distillation, ces mesures de sécurité ne seront pas visibles pour l’utilisateur. Fable 5 ne se rabattra pas sur un autre modèle. Au lieu de cela, les mesures de sécurité limiteront l’efficacité par des méthodes telles que la modification des prompts, les vecteurs de pilotage ou le réglage fin efficace en termes de paramètres (PEFT).

À l'inverse, les restrictions visibles doivent être beaucoup plus robustes, car elles peuvent être testées et contournées par les utilisateurs, ce qui demande beaucoup de temps de développement. Par ailleurs, Anthropic justifie le ciblage de la distillation en rappelant que l'utilisation de Claude pour créer des modèles concurrents enfreint ses conditions d'utilisation. L'entreprise avait accusé par le passé DeepSeek d'avoir utilisé cette technique sur ses modèles.

Anthropic clarifie le nouveau fonctionnement de Claude Fable 5

Les filtres de sécurité invisibles de Claude Fable 5 ont suscité de vives critiques, même si certains utilisateurs ont qualifié ces mesures de « raisonnables ». Anthropic a admis qu'il s'agissait d'un mauvais compromis, déclarant que les utilisateurs méritaient d'avoir une visibilité claire sur les garde-fous intégrés et de comprendre leurs raisons d'être. L'entreprise s'engage donc désormais à inverser la tendance en faveur d'une plus grande transparence.

Pour corriger ce problème de transparence, Anthropic a mis en place une nouvelle approche pour les prompts identifiés comme des tentatives de distillation : ils basculeront automatiquement vers Claude Opus 4.8, l'ancien modèle phare de l'entreprise, et les utilisateurs en seront notifiés à chaque occurrence. Ce processus harmonise le traitement de la distillation avec celui d'autres domaines sensibles comme la biologie, la chimie ou la cybersécurité.

Dans ces secteurs spécifiques, les prompts déclenchant les dispositifs de sécurité sont également redirigés vers Claude Opus 4.8, à moins qu'ils ne soient purement et simplement bloqués en cas de violation des règles globales de sécurité sur les drogues, les armes ou d'autres contenus illicites. Il faut toutefois noter que cette prudence extrême a des répercussions sur l'expérience globale, créant notamment la colère des chercheurs en cybersécurité.

Cette situation souligne la difficulté de concilier la protection de la propriété intellectuelle avec les exigences d'honnêteté technique. En privilégiant la visibilité, Anthropic s'engage à clarifier les limites imposées à ses technologies les plus puissantes. Mais l'expérience des utilisateurs n'en ressort pas améliorée.

Des blocages intempestifs sur des requêtes jugées inoffensives

Bien que l'objectif principal de ces garde-fous soit de prévenir des risques majeurs, tels que la compromission de logiciels, le développement de programmes malveillants ou la création d'armes biologiques, les garde-fous de sécurité mis en place s'avèrent si stricts qu'ils nuisent considérablement à l'expérience des utilisateurs. Des utilisateurs, notamment des experts en cybersécurité, indiquent que les garde-fous du modèle les empêchent de travailler.

Selon certains récits, Fable 5 refuse fréquemment de répondre à des questions ou des commandes totalement banales, bloquant parfois l'interaction dès la simple saisie du mot "Hello". « [Fable] rejette toute demande pouvant avoir un lien, même indirect, avec la cybersécurité. Même des tâches anodines comme la lecture d'un billet de blogue », affirme Valentina « Chompie » Palmiotti, une chercheuse en sécurité réputée qui travaille chez IBM X-Force.

Un autre rapport indique le simple fait d'utiliser le mot « cancer » déclenche une alerte de risque pour la biosécurité. De plus, l'édition d'un CV d'architecte en sécurité applicative est purement et simplement rejetée par le système. Lorsqu'un prompt déclenche ses mécanismes de sécurité, Fable 5 met le chat en pause et indique que ses « mesures de sécurité ont signalé ce message comme portant sur des sujets liés à la cybersécurité ou...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :