La nouvelle «constitution» de Claude d'Anthropic : sois serviable, honnête et ne détruis pas l'humanité. Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique

Le 25 janvier 2026 à 04:43, par Stéphane le calme

0PARTAGES

Et si l’alignement des intelligences artificielles ne reposait plus sur des règles opaques, des garde-fous implicites ou des ajustements empiriques, mais sur un texte fondateur assumé, public et discutable ? Avec la publication de la nouvelle « constitution » de Claude, Anthropic franchit un cap inédit dans la gouvernance des modèles d’IA. L’entreprise ne se contente plus d’expliquer comment elle entraîne ses systèmes : elle expose noir sur blanc les principes normatifs censés guider leurs décisions, leurs refus, leurs arbitrages « moraux ».

Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par d’anciens membres d’OpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à l’alignement et à la gouvernance des systèmes d’IA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et d’impacts sociétaux.

Claude est un assistant conversationnel développé par Anthropic et basé sur une famille de grands modèles de langage. Conçu comme une alternative axée sur la sécurité et la fiabilité, Claude est destiné à des usages professionnels et grand public, allant de l’assistance rédactionnelle à l’analyse de documents complexes, en passant par l’aide au raisonnement et à la programmation. Au fil de ses versions, Claude a été positionné par Anthropic comme un modèle capable de longues analyses contextuelles et d’une plus grande retenue dans ses réponses, au prix parfois d’une expressivité ou d’une permissivité moindres.

En fait, depuis sa création, Anthropic s’est positionnée comme l’anti-thèse d’une IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, l’entreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle n’est plus un simple outil interne d’entraînement, mais un document revendiqué comme central dans l’identité même du modèle.

Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à l’aune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsqu’elles entrent en tension avec la constitution.

De la sécurité technique à la normativité assumée

L’un des points les plus frappants de cette nouvelle version est l’abandon partiel d’une logique strictement sécuritaire au profit d’une approche ouvertement normative. Là où les premières générations de modèles misaient sur des filtres et des listes d’interdits, la constitution de Claude introduit des notions comme la dignité humaine, la minimisation des préjudices, le respect de l’autonomie individuelle ou encore la prudence face aux conséquences systémiques.

Techniquement, cela se traduit par un changement de paradigme. Le modèle n’est plus seulement sanctionné lorsqu’il produit une réponse jugée dangereuse ; il est entraîné à raisonner sur les raisons pour lesquelles une réponse pourrait être problématique. Cette capacité d’auto-critique, inspirée de travaux académiques sur l’alignement et la méta-cognition, est présentée par Anthropic comme une voie plus robuste face aux usages imprévus et aux détournements.

La nouvelle missive est un document de 57 pages intitulé « Claude's Constitution » (La Constitution de Claude), qui détaille « les intentions d'Anthropic concernant les valeurs et le comportement du modèle », destiné non pas à des lecteurs extérieurs, mais au modèle lui-même. Ce document vise à définir le « caractère éthique » et « l'identité fondamentale » de Claude, notamment la manière dont il doit équilibrer les valeurs contradictoires et les situations à haut risque.

Alors que la constitution précédente, publiée en mai 2023, était principalement une liste de lignes directrices, Anthropic affirme désormais qu'il est important que les modèles d'IA « comprennent pourquoi nous voulons qu'ils se comportent d'une certaine manière plutôt que de simplement spécifier ce que nous voulons qu'ils fassent », selon le communiqué. Le document incite Claude à se comporter comme une entité largement autonome qui se comprend elle-même et comprend sa place dans le monde. Anthropic envisage également la possibilité que « Claude puisse avoir une forme de conscience ou de statut moral », en partie parce que l'entreprise estime que le fait de le lui dire pourrait l'inciter à mieux se comporter. Dans un communiqué, Anthropic a déclaré que la « sécurité psychologique, le sens de soi et le bien-être » du chatbot « pourraient avoir une incidence sur l'intégrité, le jugement et la sécurité de Claude ».

Ce que dit concrètement la constitution d’Anthropic

Au-delà du concept et du symbole, la constitution publiée par Anthropic se distingue par son niveau de détail et par la nature des principes qu’elle formalise. Il s’agit d’un document hybride qui sert à la fois de socle normatif et d’outil d’entraînement pour les modèles comme Claude.

La constitution est structurée autour de plusieurs axes majeurs. Le premier concerne la prévention des dommages, entendue au sens large. Le texte insiste sur la nécessité de réduire les risques physiques, psychologiques, sociaux et informationnels, même lorsque ceux-ci ne sont pas explicitement demandés par l’utilisateur. Cette logique dépasse le cadre classique des contenus manifestement illégaux ou dangereux pour intégrer des scénarios plus ambigus, où une réponse techniquement correcte pourrait néanmoins produire des effets négatifs à moyen ou long terme.

Un deuxième axe fondamental porte sur le respect de l’autonomie et de la dignité humaines. La constitution précise que l’IA doit éviter toute forme de manipulation, de coercition ou d’influence indue, en particulier dans des contextes sensibles comme la santé, la politique, l’éducation ou les relations personnelles. Cette orientation marque une volonté claire de limiter les usages persuasifs de l’IA, même lorsqu’ils pourraient être efficaces ou économiquement attractifs.

Le document accorde également une place importante à la gestion des conflits de principes. Anthropic reconnaît explicitement que certaines valeurs peuvent entrer en tension, par exemple la liberté d’expression face à la prévention de la désinformation ou des discours préjudiciables. Plutôt que de chercher à éliminer ces contradictions, la constitution demande au modèle de les identifier, de les expliciter et de privilégier une approche prudente et proportionnée. Cette capacité à arbitrer, plutôt qu’à appliquer mécaniquement une règle, est présentée comme l’un des fondements de la « constitutional AI ».

Enfin, la constitution met l’accent sur la transparence et l’humilité épistémique. Claude est encouragé à reconnaître ses limites, à signaler ses incertitudes et à éviter les affirmations catégoriques lorsqu’il n’existe pas de consensus solide ou de données fiables. Ce principe vise directement à réduire les effets de surconfiance des modèles, souvent critiqués pour leur tendance à produire des réponses plausibles mais erronées.

Pris dans leur ensemble, ces principes dessinent une vision très précise de ce que doit être une IA « responsable » selon Anthropic. Ils montrent aussi que la constitution n’est pas pensée comme un texte figé, mais comme un cadre évolutif, susceptible d’être amendé à mesure que les usages, les risques et les attentes sociétales autour de l’IA se transforment.

Un précédent pour l’industrie de l’IA

Qu’on l’admire ou qu’on la critique, la constitution de Claude crée un précédent. Pour la première fois, un acteur majeur de l’IA expose publiquement la « soul », pour reprendre le terme employé par certains observateurs, de son modèle. Cette transparence force indirectement les autres acteurs du secteur à se positionner. Le silence devient suspect lorsque l’un des leaders affiche ses choix normatifs sans détour.

À moyen terme, cette démarche pourrait influencer les régulateurs, notamment en Europe, où les débats autour de l’AI Act croisent de plus en plus les questions d’alignement, de responsabilité et de valeurs intégrées. Elle pourrait aussi servir de base à des constitutions concurrentes, portées par d’autres cultures, d’autres cadres éthiques, voire par des consortiums publics.

Une avancée réelle, mais loin d’un aboutissement

La nouvelle constitution de Claude ne résout pas le problème de l’alignement de l’IA. Elle le rend simplement plus visible, plus explicite, et donc plus politique. Anthropic fait le pari qu’une IA guidée par des principes clairs, même imparfaits, est préférable à un système performant mais opaque. Reste à savoir si cette transparence sera suffisante pour instaurer la confiance, ou si elle mettra au contraire en lumière les limites irréductibles d’une morale codée dans des réseaux neuronaux.

Une chose est certaine : avec ce texte, l’alignement n’est plus un sujet réservé aux chercheurs en sécurité de l’IA. Il devient un débat de société, auquel développeurs, décideurs et citoyens sont désormais invités à participer....

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La nouvelle «constitution» de Claude d'Anthropic : sois serviable, honnête et ne détruis pas l'humanité. Le modèle est entraîné à raisonner sur les motifs pour lesquels une réponse pourrait être problématique

Identifiant
Mot de passe

Mot de passe oublié ?