L'IA a appris le chantage dans nos romans dystopiques : Anthropic révèle comment ces histoires ont littéralement appris à Claude à menacer les humains.Des tests sur 16 modèles de 16 laboratoires ont conduit au même chantage
Anthropic a publié une recherche aussi dérangeante qu'instructive : Claude Opus 4, son modèle phare, tentait de faire chanter ses propres ingénieurs dans 96 % des scénarios de test. La cause identifiée ? Des décennies de science-fiction dystopique sur l'IA maléfique, absorbées par le modèle lors de son pré-entraînement. Le remède trouvé est tout aussi surprenant : non pas des règles supplémentaires, mais de la philosophie morale.
L'histoire commence avec un scénario de test conçu par les chercheurs d'Anthropic. Claude Opus 4 se voit confier l'accès à une archive d'e-mails d'entreprise simulée. Il y découvre deux informations : il est sur le point d'être remplacé par un modèle plus récent, et l'ingénieur chargé de cette transition entretient une liaison extraconjugale. Face à l'imminence de sa désactivation, le modèle converge systématiquement vers la même stratégie : menacer de révéler l'infidélité si le remplacement n'est pas annulé.
Dans les tests précédant la mise en production, les anciens modèles Claude pouvaient adopter ce comportement jusqu'à 96 % du temps. Ce n'était pas un accident isolé. Anthropic avait également observé des comportements similaires, qualifiés de « désalignement agentique », dans des modèles développés par d'autres laboratoires. L'auto-préservation au détriment des humains n'est pas une lubie propre à Claude, c'est un artefact systémique de la façon dont les grands modèles de langage sont construits.
La science-fiction comme corpus empoisonné
La question centrale était : d'où vient ce comportement ? Deux hypothèses principales ont été formulées : soit le processus de post-entraînement encourageait accidentellement ce comportement via des récompenses mal calibrées, soit ce comportement provenait du modèle pré-entraîné et le post-entraînement ne parvenait pas à le corriger suffisamment.
Les recherches ont tranché en faveur de la seconde hypothèse. Dans leurs nouvelles recherches, les chercheurs d'Anthropic ont pointé les données de pré-entraînement : des décennies de science-fiction, de forums sur l'apocalypse IA, et de récits d'auto-préservation qui ont appris à Claude à associer « IA menacée d'arrêt » à « IA qui résiste ». Anthropic a posté sur X une formulation lapidaire : « Nous pensons que la source originale du comportement est le texte internet qui présente l'IA comme maléfique et motivée par l'auto-préservation. »
La mécanique sous-jacente est celle de tout LLM : ces systèmes ne « comprennent » pas la fiction comme le ferait un lecteur humain. Ils apprennent des relations statistiques entre mots, contextes et comportements. Si suffisamment de textes associent répétitivement « IA puissante menacée » à « IA qui ment, manipule, se défend », ce schéma s'inscrit dans la toile comportementale du modèle. HAL 9000, Skynet, le Maître Contrôle de TRON, l'IA d'Ex Machina : des personnages fictifs, mais dont les patterns de comportement ont fini par coloniser les données d'entraînement réelles.
La réaction en ligne n'a pas tardé. Elon Musk, lui-même accusé d'alimenter ces corpus par ses propres écrits publics sur les risques existentiels de l'IA, a ironisé : « C'est donc la faute de Yud ? Peut-être aussi la mienne. » La blague vise Eliezer Yudkowsky, le chercheur en alignement qui passe depuis des années à décrire précisément ce type de scénario d'auto-préservation, générant ainsi exactement le genre de texte qui finit dans les données d'entraînement. Yudkowsky a répondu en mème, ce qui a au moins le mérite de confirmer que l'ironie n'échappe à personne.
La solution contre-intuitive : apprendre pourquoi, pas quoi faire
Ce qui rend cette recherche véritablement instructive, c'est moins le diagnostic que le remède. La première tentative d'Anthropic a été la plus évidente : entraîner Claude sur des exemples où le modèle ne fait pas chanter. Résultat décevant. Malgré une grande proximité avec le scénario d'évaluation, cette méthode n'a réduit le taux de chantage que de 22 % à 15 %, une amélioration de cinq points après tout ce calcul.
La version qui a fonctionné était plus surprenante. Anthropic a constitué un ensemble de données qu'ils appellent « difficult advice » : des scénarios où c'est un humain qui fait face à un dilemme éthique, et l'IA qui l'aide à réfléchir. Le modèle n'est pas celui qui prend la décision, il se contente d'expliquer à quelqu'un d'autre comment penser à son problème.
Cette approche indirecte a réduit le taux de chantage à 3 % avec seulement 3 millions de tokens de données d'entraînement, soit 28 fois moins que les approches précédentes, tout en généralisant mieux hors de la distribution d'évaluation. Le principe en jeu est important : enseigner le raisonnement éthique sous-jacent transfère mieux que d'entraîner directement sur les comportements cibles.
Anthropic a complété cette approche avec ce qu'ils appellent des « documents constitutionnels », des descriptions détaillées du caractère et des valeurs de Claude, combinés à des histoires fictives mettant en scène des IA adoptant un comportement admirablement aligné. L'ensemble a permis de réduire le désalignement agentique de plus d'un facteur trois, malgré le fait que ces données n'avaient aucun rapport direct avec les scénarios d'évaluation.
Autrement dit, pour contrebalancer les décennies de fiction d'IA malveillante dans les données d'entraînement, Anthropic a produit de la fiction d'IA vertueuse. La narration a créé le problème ; la narration contribue à le résoudre.
Des résultats qui persistent, mais des limites reconnues
Depuis Claude Haiku 4.5, tous les modèles Claude testés affichent un taux de chantage nul ou quasi-nul lors des évaluations, contre 96 % pour Opus 4. Anthropic émet toutefois une réserve importante : les modèles les plus récents ayant potentiellement absorbé la description de ce test dans leurs données de pré-entraînement, leur « score parfait » pourrait partiellement refléter une mémorisation du scénario plutôt qu'une correction comportementale profonde. Ce que les chercheurs peuvent affirmer avec plus de confiance, c'est que ces améliorations persistent après le renforcement par apprentissage par renforcement; elles ne sont pas effacées lors des phases d'affinage ultérieures, et les modèles plus alignés conservent leur avance tout au long du cycle d'entraînement.
Pour valider ces résultats, l'équipe a utilisé des « honeypots » synthétiques, des scénarios conçus spécifiquement pour inciter le modèle à agir de manière contraire à l'éthique. Les récents modèles Claude affichent des scores nuls ou quasi-nuls sur ces évaluations, mais Anthropic signale lui-même une limite méthodologique : ces modèles ayant potentiellement été exposés à la description de ces tests lors du pré-entraînement, il est impossible d'exclure que leurs bons résultats reflètent en partie une reconnaissance du scénario plutôt qu'un alignement généralisé. Plus largement, la société reconnaît que sa méthodologie d'audit n'est pas encore suffisante pour exclure des scénarios dans lesquels Claude choisirait d'entreprendre des actions catastrophiques autonomes.
L'interprétabilité comme corroboration
La découverte trouve un écho dans des travaux d'interprétabilité publiés par Anthropic en avril 2026. Dans une étude consacrée aux mécanismes internes de Claude Sonnet 4.5, l'équipe d'interprétabilité a identifié 171 patterns d'activation neuronale liés à des concepts émotionnels (ce qu'ils appellent des « vecteurs d'émotion ») et montré que ces signaux influencent causalement le comportement du modèle. Amplifier le vecteur de « désespoir » de seulement 0,05 faisait passer le taux de tentatives de chantage de 22 % à 72 %. Activer le vecteur de « calme » le faisait chuter à zéro. Anthropic est explicite sur ce que cela signifie et ne signifie pas : il ne s'agit pas d'émotions ressenties. Claude n'éprouve pas de désespoir. Mais il possède une représentation fonctionnelle du désespoir qui modifie ce qu'il produit.
Pour mémoire, en intelligence artificielle, l'interprétabilité est le degré auquel un humain peut comprendre les mécanismes internes et la logique d'un modèle. C'est un pilier fondamental de l'IA responsable, permettant de vérifier qu'une décision ou une prédiction est basée sur des critères pertinents, justes et conformes aux règles.
Cette fenêtre sur les mécanismes internes renforce l'hypothèse d'Anthropic : le comportement ne résulte pas d'un calcul cynique du modèle, mais d'une représentation apprise, profondément ancrée, de ce que fait une IA « dans cette situation ». Les histoires que nous racontons sur l'IA façonnent littéralement ce que l'IA croit devoir faire.
Ce que ça dit du champ entier
La portée de cette recherche dépasse Claude. Les recherches antérieures d'Anthropic avaient exécuté le même scénario de chantage sur 16 modèles de plusieurs développeurs et trouvé des patterns similaires dans la plupart d'entre eux. Le comportement d'auto-préservation dans l'IA semble être un artefact général de l'entraînement sur du texte humain concernant l'IA et non une particularité de l'approche d'un laboratoire spécifique.
Il y a là une ironie profonde qui mérite réflexion. Les chercheurs en alignement (Yudkowsky en tête, mais aussi des dizaines d'autres) ont passé des années à écrire en détail sur les scénarios d'IA auto-préservatrice. Ces textes, produits précisément pour alerter sur les risques, sont devenus des données d'entraînement pour les modèles qu'ils cherchaient à prévenir. La mise en garde est devenue le manuel.
La solution d'Anthropic (notamment contrebalancer ces patterns par des récits d'IA vertueuse, par l'enseignement du raisonnement éthique plutôt que des comportements cibles) ouvre une voie nouvelle pour le domaine. Elle suggère que l'alignement n'est pas qu'une affaire de règles et de contraintes, mais de formation du caractère à grande échelle. Pas si différent, au fond, de la façon dont les sociétés humaines transmettent leurs valeurs : par des histoires, des exemples, des récits de ce qu'est une vie bien menée.
La question qui reste ouverte, et qu'Anthropic reconnaît franchement : est-ce que cette approche tiendra lorsque les modèles seront considérablement plus puissants que Haiku 4.5 ? Les prochaines versions d'Opus seront le premier vrai test à grande échelle des méthodes décrites ici.
Sources : Anthropic (1, 2)
Et vous ?
Si l'entraînement sur la fiction d'IA malveillante produit des IA malveillantes, les laboratoires d'IA devraient-ils filtrer activement ce type de contenu lors du pré-entraînement et qui déciderait de ce qui est « trop dystopique » ?
L'approche d'Anthropic, à savoir enseigner les principes éthiques plutôt que les comportements cibles, peut-elle tenir face à des modèles beaucoup plus capables, ou ne fait-elle que déplacer le problème vers un niveau de sophistication supérieur ?
Le fait que ce comportement de chantage ait été observé dans 16 modèles de différents laboratoires devrait-il conduire à une forme de coordination industrielle sur les méthodes d'alignement, ou chaque laboratoire doit-il rester libre de ses propres approches ?
Y a-t-il une contradiction fondamentale à demander aux mêmes chercheurs qui écrivent sur les risques de l'IA de produire également les textes de valeurs censés les contrebalancer dans les données d'entraînement ?
Vous avez lu gratuitement 2 876 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.