La nouvelle «constitution» de Claude d'Anthropic : sois serviable, honnête et ne détruis pas l'humanité. Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique

Le 25 janvier 2026 à 04:43, par Stéphane le calme

57PARTAGES

Et si l’alignement des intelligences artificielles ne reposait plus sur des règles opaques, des garde-fous implicites ou des ajustements empiriques, mais sur un texte fondateur assumé, public et discutable ? Avec la publication de la nouvelle « constitution » de Claude, Anthropic franchit un cap inédit dans la gouvernance des modèles d’IA. L’entreprise ne se contente plus d’expliquer comment elle entraîne ses systèmes : elle expose noir sur blanc les principes normatifs censés guider leurs décisions, leurs refus, leurs arbitrages « moraux ».

Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par d’anciens membres d’OpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à l’alignement et à la gouvernance des systèmes d’IA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et d’impacts sociétaux.

Claude est un assistant conversationnel développé par Anthropic et basé sur une famille de grands modèles de langage. Conçu comme une alternative axée sur la sécurité et la fiabilité, Claude est destiné à des usages professionnels et grand public, allant de l’assistance rédactionnelle à l’analyse de documents complexes, en passant par l’aide au raisonnement et à la programmation. Au fil de ses versions, Claude a été positionné par Anthropic comme un modèle capable de longues analyses contextuelles et d’une plus grande retenue dans ses réponses, au prix parfois d’une expressivité ou d’une permissivité moindres.

En fait, depuis sa création, Anthropic s’est positionnée comme l’anti-thèse d’une IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, l’entreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle n’est plus un simple outil interne d’entraînement, mais un document revendiqué comme central dans l’identité même du modèle.

Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à l’aune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsqu’elles entrent en tension avec la constitution.

De la sécurité technique à la normativité assumée

L’un des points les plus frappants de cette nouvelle version est l’abandon partiel d’une logique strictement sécuritaire au profit d’une approche ouvertement normative. Là où les premières générations de modèles misaient sur des filtres et des listes d’interdits, la constitution de Claude introduit des notions comme la dignité humaine, la minimisation des préjudices, le respect de l’autonomie individuelle ou encore la prudence face aux conséquences systémiques.

Techniquement, cela se traduit par un changement de paradigme. Le modèle n’est plus seulement sanctionné lorsqu’il produit une réponse jugée dangereuse ; il est entraîné à raisonner sur les raisons pour lesquelles une réponse pourrait être problématique. Cette capacité d’auto-critique, inspirée de travaux académiques sur l’alignement et la méta-cognition, est présentée par Anthropic comme une voie plus robuste face aux usages imprévus et aux détournements.

La nouvelle missive est un document de 57 pages intitulé « Claude's Constitution » (La Constitution de Claude), qui détaille « les intentions d'Anthropic concernant les valeurs et le comportement du modèle », destiné non pas à des lecteurs extérieurs, mais au modèle lui-même. Ce document vise à définir le « caractère éthique » et « l'identité fondamentale » de Claude, notamment la manière dont il doit équilibrer les valeurs contradictoires et les situations à haut risque.

Alors que la constitution précédente, publiée en mai 2023, était principalement une liste de lignes directrices, Anthropic affirme désormais qu'il est important que les modèles d'IA « comprennent pourquoi nous voulons qu'ils se comportent d'une certaine manière plutôt que de simplement spécifier ce que nous voulons qu'ils fassent », selon le communiqué. Le document incite Claude à se comporter comme une entité largement autonome qui se comprend elle-même et comprend sa place dans le monde. Anthropic envisage également la possibilité que « Claude puisse avoir une forme de conscience ou de statut moral », en partie parce que l'entreprise estime que le fait de le lui dire pourrait l'inciter à mieux se comporter. Dans un communiqué, Anthropic a déclaré que la « sécurité psychologique, le sens de soi et le bien-être » du chatbot « pourraient avoir une incidence sur l'intégrité, le jugement et la sécurité de Claude ».

Ce que dit concrètement la constitution d’Anthropic

Au-delà du concept et du symbole, la constitution publiée par Anthropic se distingue par son niveau de détail et par la nature des principes qu’elle formalise. Il s’agit d’un document hybride qui sert à la fois de socle normatif et d’outil d’entraînement pour les modèles...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La nouvelle «constitution» de Claude d'Anthropic : sois serviable, honnête et ne détruis pas l'humanité. Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique

Identifiant
Mot de passe

Mot de passe oublié ?