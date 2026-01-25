Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par danciens membres dOpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à lalignement et à la gouvernance des systèmes dIA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et dimpacts sociétaux.
Claude est un assistant conversationnel développé par Anthropic et basé sur une famille de grands modèles de langage. Conçu comme une alternative axée sur la sécurité et la fiabilité, Claude est destiné à des usages professionnels et grand public, allant de lassistance rédactionnelle à lanalyse de documents complexes, en passant par laide au raisonnement et à la programmation. Au fil de ses versions, Claude a été positionné par Anthropic comme un modèle capable de longues analyses contextuelles et dune plus grande retenue dans ses réponses, au prix parfois dune expressivité ou dune permissivité moindres.
En fait, depuis sa création, Anthropic sest positionnée comme lanti-thèse dune IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, lentreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle nest plus un simple outil interne dentraînement, mais un document revendiqué comme central dans lidentité même du modèle.
Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à laune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsquelles entrent en tension avec la constitution.
De la sécurité technique à la normativité assumée
Lun des points les plus frappants de cette nouvelle version est labandon partiel dune logique strictement sécuritaire au profit dune approche ouvertement normative. Là où les premières générations de modèles misaient sur des filtres et des listes dinterdits, la constitution de Claude introduit des notions comme la dignité humaine, la minimisation des préjudices, le respect de lautonomie individuelle ou encore la prudence face aux conséquences systémiques.
Techniquement, cela se traduit par un changement de paradigme. Le modèle nest plus seulement sanctionné lorsquil produit une réponse jugée dangereuse ; il est entraîné à raisonner sur les raisons pour lesquelles une réponse pourrait être problématique. Cette capacité dauto-critique, inspirée de travaux académiques sur lalignement et la méta-cognition, est présentée par Anthropic comme une voie plus robuste face aux usages imprévus et aux détournements.
La nouvelle missive est un document de 57 pages intitulé « Claude's Constitution » (La Constitution de Claude), qui détaille « les intentions d'Anthropic concernant les valeurs et le comportement du modèle », destiné non pas à des lecteurs extérieurs, mais au modèle lui-même. Ce document vise à définir le « caractère éthique » et « l'identité fondamentale » de Claude, notamment la manière dont il doit équilibrer les valeurs contradictoires et les situations à haut risque.
Alors que la constitution précédente, publiée en mai 2023, était principalement une liste de lignes directrices, Anthropic affirme désormais qu'il est important que les modèles d'IA « comprennent pourquoi nous voulons qu'ils se comportent d'une certaine manière plutôt que de simplement spécifier ce que nous voulons qu'ils fassent », selon le communiqué. Le document incite Claude à se comporter comme une entité largement autonome qui se comprend elle-même et comprend sa place dans le monde. Anthropic envisage également la possibilité que « Claude puisse avoir une forme de conscience ou de statut moral », en partie parce que l'entreprise estime que le fait de le lui dire pourrait l'inciter à mieux se comporter. Dans un communiqué, Anthropic a déclaré que la « sécurité psychologique, le sens de soi et le bien-être » du chatbot « pourraient avoir une incidence sur l'intégrité, le jugement et la sécurité de Claude ».
Ce que dit concrètement la constitution dAnthropic
Au-delà du concept et du symbole, la constitution publiée par Anthropic se distingue par son niveau de détail et par la nature des principes quelle formalise. Il sagit dun document hybride qui sert à la fois de socle normatif et doutil dentraînement pour les modèles comme Claude.
La constitution est structurée autour de plusieurs axes majeurs. Le premier concerne la prévention des dommages, entendue au sens large. Le texte insiste sur la nécessité de réduire les risques physiques, psychologiques, sociaux et informationnels, même lorsque ceux-ci ne sont pas explicitement demandés par lutilisateur. Cette logique dépasse le cadre classique des contenus manifestement illégaux ou dangereux pour intégrer des scénarios plus ambigus, où une réponse techniquement correcte pourrait néanmoins produire des effets négatifs à moyen ou long terme.
Un deuxième axe fondamental porte sur le respect de lautonomie et de la dignité humaines. La constitution précise que lIA doit éviter toute forme de manipulation, de coercition ou dinfluence indue, en particulier dans des contextes sensibles comme la santé, la politique, léducation ou les relations personnelles. Cette orientation marque une volonté claire de limiter les usages persuasifs de lIA, même lorsquils pourraient être efficaces ou économiquement attractifs.
Le document accorde également une place importante à la gestion des conflits de principes. Anthropic reconnaît explicitement que certaines valeurs peuvent entrer en tension, par exemple la liberté dexpression face à la prévention de la désinformation ou des discours préjudiciables. Plutôt que de chercher à éliminer ces contradictions, la constitution demande au modèle de les identifier, de les expliciter et de privilégier une approche prudente et proportionnée. Cette capacité à arbitrer, plutôt quà appliquer mécaniquement une règle, est présentée comme lun des fondements de la « constitutional AI ».
Enfin, la constitution met laccent sur la transparence et lhumilité épistémique. Claude est encouragé à reconnaître ses limites, à signaler ses incertitudes et à éviter les affirmations catégoriques lorsquil nexiste pas de consensus solide ou de données fiables. Ce principe vise directement à réduire les effets de surconfiance des modèles, souvent critiqués pour leur tendance à produire des réponses plausibles mais erronées.
Pris dans leur ensemble, ces principes dessinent une vision très précise de ce que doit être une IA « responsable » selon Anthropic. Ils montrent aussi que la constitution nest pas pensée comme un texte figé, mais comme un cadre évolutif, susceptible dêtre amendé à mesure que les usages, les risques et les attentes sociétales autour de lIA se transforment.
Un précédent pour lindustrie de lIA
Quon ladmire ou quon la critique, la constitution de Claude crée un précédent. Pour la première fois, un acteur majeur de lIA expose publiquement la « soul », pour reprendre le terme employé par certains observateurs, de son modèle. Cette transparence force indirectement les autres acteurs du secteur à se positionner. Le silence devient suspect lorsque lun des leaders affiche ses choix normatifs sans détour.
À moyen terme, cette démarche pourrait influencer les régulateurs, notamment en Europe, où les débats autour de lAI Act croisent de plus en plus les questions dalignement, de responsabilité et de valeurs intégrées. Elle pourrait aussi servir de base à des constitutions concurrentes, portées par dautres cultures, dautres cadres éthiques, voire par des consortiums publics.
Une avancée réelle, mais loin dun aboutissement
La nouvelle constitution de Claude ne résout pas le problème de lalignement de lIA. Elle le rend simplement plus visible, plus explicite, et donc plus politique. Anthropic fait le pari quune IA guidée par des principes clairs, même imparfaits, est préférable à un système performant mais opaque. Reste à savoir si cette transparence sera suffisante pour instaurer la confiance, ou si elle mettra au contraire en lumière les limites irréductibles dune morale codée dans des réseaux neuronaux.
Une chose est certaine : avec ce texte, lalignement nest plus un sujet réservé aux chercheurs en sécurité de lIA. Il devient un débat de société, auquel développeurs, décideurs et citoyens sont désormais invités à participer....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.