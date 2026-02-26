Anthropic est une entreprise américaine de recherche et de développement en intelligence artificielle fondée en 2021 par danciens membres dOpenAI, dont Dario Amodei et Daniela Amodei. La société est spécialisée dans les travaux liés à la sûreté, à lalignement et à la gouvernance des systèmes dIA avancés. Son objectif affiché est de développer des modèles puissants tout en réduisant les risques associés à leur déploiement à grande échelle, notamment en matière de sécurité, de biais, de manipulation et dimpacts sociétaux.
En fait, depuis sa création, Anthropic sest positionnée comme lanti-thèse dune IA purement utilitariste, optimisée uniquement pour la performance. Avec Claude, lentreprise revendique une approche dite de « constitutional AI », où le modèle apprend non seulement à répondre, mais aussi à se corriger lui-même en se référant à un corpus de principes explicites. La nouvelle constitution publiée marque une évolution notable : elle nest plus un simple outil interne dentraînement, mais un document revendiqué comme central dans lidentité même du modèle.
Ce texte agit comme une sorte de charte fondamentale. Il ne décrit pas des comportements précis à adopter, mais des valeurs, des priorités et des hiérarchies de principes. Claude est entraîné à évaluer ses propres réponses à laune de ces règles, à détecter ses dérives potentielles et à reformuler de lui-même ses sorties lorsquelles entrent en tension avec la constitution.
Puis fin janvier 2026, un conflit discret mais féroce a éclaté entre l'armée américaine et Anthropic. Le conflit porte sur une question d'une simplicité trompeuse : qui décide de l'utilisation d'une IA puissante dans la guerre ? Anthropic, l'entreprise à l'origine de l'assistant d'IA Claude, a tracé une ligne de démarcation. Les négociateurs du Pentagone veulent que l'entreprise lève les restrictions qui empêchent actuellement sa technologie d'être déployée pour des opérations autonomes de ciblage et de surveillance d'armes à l'intérieur des frontières américaines. Anthropic a refusé.
Récemment, le secrétaire américain à la Défense Pete Hegseth a donné au PDG d'Anthropic jusqu'au 27 février 2026 à 17h pour ouvrir la technologie d'IA de l'entreprise à une utilisation militaire sans restriction, sous peine de perdre son contrat avec le gouvernement fédéral. Il aurait également menacé de désigner Anthropic comme un risque pour la chaîne d'approvisionnement. Le Pentagone accélère l'intégration de l'IA pour maintenir sa compétitivité face à la Chine.
En réponse, Anthropic a décider d'assouplir son principe de sécurité fondamental pour faire face à la concurrence. Au lieu d'imposer des garde-fous à son développement de modèles d'IA, Anthropic adopte un cadre de sécurité non contraignant qui, selon elle, peut évoluer et évoluera. Dans un billet de blog décrivant sa nouvelle politique, Anthropic a déclaré que les lacunes de sa politique de mise à l'échelle responsable, vieille de deux ans, pourraient entraver sa capacité à être compétitive sur un marché de l'IA en pleine croissance.
Cette annonce est surprenante, car Anthropic s'est décrite comme l'entreprise d'IA avec une « âme ». Elle intervient également la semaine même où Anthropic mène une bataille importante avec le Pentagone au sujet des lignes rouges en matière d'IA. Le changement de politique est distinct et sans rapport avec les discussions d'Anthropic avec le Pentagone, selon une source familière de l'affaire. Le secrétaire à la défense Pete Hegseth a lancé un ultimatum au PDG d'Anthropic, Dario Amodei, pour qu'il revienne sur les mesures de protection de l'entreprise en matière d'IA, sous peine de perdre un contrat du Pentagone d'une valeur de 200 millions de dollars. Le Pentagone a menacé d'inscrire Anthropic sur une liste noire du gouvernement.
Dans son billet de blog, l'entreprise explique que sa politique de sécurité précédente visait à établir un consensus au sein de l'industrie sur l'atténuation des risques liés à l'IA - des garde-fous que l'industrie n'a pas réussi à franchir. Anthropic a également souligné que sa politique de sécurité était en décalage avec le climat politique anti-réglementaire qui règne actuellement à Washington.
La politique précédente d'Anthropic stipulait qu'elle devait interrompre la formation de modèles plus puissants si leurs capacités dépassaient la capacité de l'entreprise à les contrôler et à assurer leur sécurité - une mesure qui a été supprimée dans la nouvelle politique. Anthropic a fait valoir que les développeurs d'IA responsables qui interrompent leur croissance alors que des acteurs moins prudents vont de l'avant risquent « d'aboutir à un monde moins sûr ». Dans le cadre de la nouvelle politique, Anthropic a déclaré qu'elle séparerait ses propres plans de sécurité de ses recommandations pour l'industrie de l'IA.
Anthropic a écrit qu'elle avait espéré que ses principes de sécurité initiaux « encourageraient d'autres entreprises d'IA à introduire des politiques similaires ». C'est l'idée d'une « course vers le haut » (l'inverse d'une « course vers le bas »), dans laquelle les différents acteurs de l'industrie sont incités à améliorer, plutôt qu'à affaiblir, les mesures de protection de leurs modèles et leur position globale en matière de sécurité". L'entreprise suggère aujourd'hui que cela n'a pas été le cas.
Un porte-parole d'Anthropic a décrit la politique mise à jour comme « la plus solide à ce jour en matière de responsabilité publique et de transparence ». « Nous avons franchi une étape importante par rapport à nos politiques précédentes en nous engageant à publier à intervalles réguliers des rapports détaillés sur nos plans visant à renforcer nos mesures d'atténuation des risques, ainsi que sur les modèles de menace et les capacités de tous nos modèles », a déclaré le porte-parole. « Depuis le début, nous avons dit que le rythme de l'IA et les incertitudes dans le domaine nous obligeraient à itérer et à améliorer rapidement la politique. »
En juin 2025, Anthropic avait lancé Claude Gov pour les clients américains du secteur de la sécurité nationale, un ensemble exclusif de modèles d'intelligence artificielle (IA) qui est déjà entre les mains de certaines agences gouvernementales. Anthropic a déclaré que les modèles disponibles sous Claude Gov sont conçus pour traiter des documents classifiés, fonctionner mieux dans les langues et dialectes "essentiels à la sécurité nationale" et avoir une meilleure compréhension des contextes du renseignement et de la défense. Le produit d'IA destiné au gouvernement d'Anthropic était annoncé alors que plusieurs entreprises se font concurrence pour vendre des outils technologiques émergents aux agences fédérales. L'enjeu est de remporter de nouveaux contrats et d'acquérir le prestige de travailler sur des missions gouvernementales importantes.
Voici l'annonce d'Anthropic :
Politique de mise à l'échelle responsable d'Anthropic : Version 3.0
Nous publions la troisième version de notre Politique de Changement d'échelle responsable (Responsible Scaling Policy - RSP), le cadre volontaire que nous utilisons pour atténuer les risques catastrophiques des systèmes d'IA.
Anthropic dispose d'une RSP depuis plus de deux ans, et nous avons beaucoup appris sur ses avantages et ses défauts. Nous mettons donc à jour la politique afin de renforcer ce qui a bien fonctionné jusqu'à présent, d'améliorer la politique si nécessaire et de mettre en uvre de nouvelles mesures pour accroître la transparence et la responsabilité de notre prise de décision.
Dans ce billet, nous examinerons certaines des idées qui sous-tendent les changements.
Le RSP original et notre théorie du changement
Le RSP est notre tentative de résoudre le problème de la prise en compte des risques liés à l'IA qui ne sont pas présents au moment où la politique est rédigée, mais qui pourraient apparaître rapidement en raison de l'évolution exponentielle de la technologie. Lorsque nous avons rédigé le RSP original en septembre 2023, les grands modèles de langage étaient essentiellement des interfaces de chat. Aujourd'hui, ils peuvent naviguer sur le web, écrire et exécuter du code, utiliser des ordinateurs et entreprendre des actions autonomes en plusieurs étapes. L'apparition de ces nouvelles capacités s'est accompagnée de l'apparition de nouveaux risques. Nous nous attendons à ce que cette tendance se poursuive.
Nous avons axé le RSP sur le principe des engagements conditionnels, ou « si-alors ». Si un modèle dépasse certains niveaux de capacité (par exemple, les capacités en sciences biologiques qui pourraient aider à la création d'armes dangereuses), la politique stipule que nous devons introduire un nouvel ensemble de garanties plus strictes (par exemple, contre l'utilisation abusive des modèles et le vol des poids des modèles).
Chaque ensemble de garanties correspond à un « niveau de sécurité de l'IA » (AI Safety Level - ASL) : par exemple, l'ASL-2 correspond à un ensemble de garanties requises, tandis que l'ASL-3 correspond à un ensemble de garanties plus strictes nécessaires pour des modèles d'IA plus performants.
Les premières ASL (ASL-2 et ASL-3) ont été définies de manière très détaillée, mais il était plus difficile de spécifier les garanties correctes pour des modèles qui n'étaient pas encore au point depuis plusieurs générations. Nous avons donc intentionnellement laissé les ASL ultérieures (ASL-4 et suivantes) largement indéfinies et espérions les développer plus en détail une fois que nous aurions une meilleure idée de ce qu'impliqueraient des niveaux de capacité d'IA plus élevés.
Voici une description approximative de notre « théorie du changement », c'est-à-dire des mécanismes par lesquels nous espérions influer sur l'écosystème avec le RSP :
- Une fonction de forçage interne. Au sein d'Anthropic, nous espérions que le RSP nous obligerait à considérer d'importantes mesures de protection comme des conditions nécessaires au lancement (et à la formation) de nouveaux modèles. L'importance de ces garde-fous serait ainsi clairement perçue par la grande organisation en pleine croissance, ce qui nous inciterait à progresser plus rapidement.
- Une course au sommet. Nous espérions que l'annonce de notre RSP encouragerait d'autres entreprises d'IA à mettre en place des politiques similaires. C'est l'idée d'une « course vers le haut » (l'inverse d'une « course vers le bas »), dans laquelle les différents acteurs de l'industrie sont incités à améliorer, plutôt qu'à affaiblir, les mesures de protection de leurs modèles et leur position globale en matière de sécurité. Au fil du temps, nous espérions que les RSP, ou des politiques similaires, deviendraient des normes industrielles volontaires ou serviraient de base à des lois sur l'IA visant à encourager la sécurité et la transparence dans le développement de modèles d'IA.
- Créer un plus grand consensus sur les risques. Nous avons considéré les seuils de capacité comme des moments potentiellement importants pour l'industrie. Si nous atteignions un seuil de capacité important (tel que la capacité des modèles d'IA à soutenir la production de bout en bout d'armes biologiques), nous mettrions nous-mêmes en place les mesures de protection appropriées et utiliserions les preuves que nous aurions obtenues sur les capacités de l'IA pour recommander à d'autres entreprises et gouvernements de prendre également des mesures en ce sens. En d'autres termes, nous pensions que les seuils de capacité pourraient être des points intéressants pour aller au-delà d'une action unilatérale (Anthropic exigeant des mesures de protection pour ses propres modèles) et encourager une action multilatérale (d'autres entreprises d'IA et/ou des gouvernements exigeant également de telles mesures de protection).
- Regarder vers l'avenir. Nous avons reconnu qu'à certains des derniers seuils de capacité, l'intensité des contre-mesures que nous envisagions (par exemple, l'obtention d'une robustesse élevée contre l'utilisation abusive des modèles d'IA par des acteurs étatiques) serait probablement difficile, voire impossible, pour Anthropic d'agir de manière unilatérale. Nous espérions qu'au moment où nous atteindrions ces capacités supérieures, le monde aurait clairement perçu les dangers et que nous serions en mesure de coordonner avec les gouvernements du monde entier la mise en uvre de mesures de protection qu'il est difficile pour une entreprise de mettre en uvre seule.
Évaluation de notre théorie du changement
Deux ans et demi plus tard, nous estimons honnêtement que certaines parties de cette théorie du changement ont fonctionné comme nous l'espérions, mais que d'autres n'ont pas fonctionné. Voici les domaines dans lesquels le RSP a été couronné de succès :
- Notre RSP nous a incités à mettre en place des garanties plus solides. Par exemple, pour nous conformer à notre norme de déploiement ASL-3 (qui concerne principalement les risques liés aux armes chimiques et biologiques provenant d'acteurs de la menace disposant de ressources et de compétences relativement modestes), nous avons mis au point des méthodes de plus en plus sophistiquées et précises (en particulier des classificateurs d'entrée et de sortie) pour bloquer les contenus préoccupants.
- D'une manière plus générale, la mise en uvre globale de la norme ASL-3 s'est avérée réalisable. Nous avons activé les mesures de protection ASL-3 pour les modèles concernés en mai 2025 et nous nous efforçons de les améliorer depuis lors.
- Notre RSP a encouragé d'autres entreprises d'IA à adopter des normes quelque peu similaires : quelques mois après l'annonce de notre RSP, OpenAI et Google DeepMind ont tous deux adopté des cadres largement similaires. Certaines entreprises ont également mis en uvre des classificateurs liés aux armes biologiques dans une veine similaire à nos défenses ASL-3. Les principes qui sous-tendent ces normes volontaires, y compris celles du RSP, ont contribué à l'élaboration des premières politiques en matière d'IA. Nous avons vu des gouvernements du monde entier (par exemple en Californie avec la loi SB 53, à New York avec la loi RAISE et avec les codes de pratique de la loi européenne sur l'IA) commencer à exiger des développeurs d'IA d'avant-garde qu'ils créent et publient des cadres d'évaluation et de gestion des risques catastrophiques - exigences auxquelles Anthropic répond par le biais de documents publics, notamment son cadre de conformité aux frontières (Frontier Compliance Framework). Encourager ce type de cadres de transparence rigoureux pour l'industrie était exactement ce que notre RSP avait prévu de faire.
Néanmoins, d'autres éléments de notre théorie du changement n'ont pas donné les résultats escomptés :
- L'idée d'utiliser les seuils du RSP pour créer un plus grand consensus sur les risques liés à l'IA ne s'est pas concrétisée dans la pratique, même si cet effet s'est partiellement manifesté. Nous avons constaté que les niveaux de capacité prédéfinis étaient beaucoup plus ambigus que nous l'avions prévu : dans certains cas, les capacités des modèles se sont clairement rapprochées des seuils du PSR, mais nous n'avons pas pu déterminer avec certitude s'ils avaient définitivement franchi ces seuils. La science de l'évaluation des modèles n'est pas suffisamment développée pour fournir des réponses définitives. Dans de tels cas, nous avons adopté une approche de précaution et mis en uvre les mesures de sauvegarde appropriées, mais notre incertitude interne se traduit par un faible argumentaire externe en faveur d'une action multilatérale dans l'ensemble de l'industrie de l'IA.
Les risques biologiques sont un exemple de cette « zone d'ambiguïté ». Nos modèles présentent désormais suffisamment de connaissances biologiques pour réussir la plupart des tests que nous pouvons effectuer rapidement et facilement, de sorte que nous ne pouvons plus avancer d'arguments solides pour démontrer que les risques d'un modèle donné sont faibles. Mais ces tests ne suffisent pas non plus à démontrer que les risques sont élevés. Nous avons cherché à obtenir des preuves supplémentaires, par exemple en soutenant un essai approfondi en laboratoire humide, mais les résultats restent ambigus, en particulier parce que les études prennent suffisamment de temps pour que des modèles plus puissants soient disponibles au moment où elles sont achevées.
- Malgré les progrès rapides des capacités de l'IA au cours des trois dernières années, l'action gouvernementale en matière de sécurité de l'IA a progressé lentement. L'environnement politique a évolué pour donner la priorité à la compétitivité de l'IA et à la croissance économique, alors que les discussions sur la sécurité n'ont pas encore gagné en importance au niveau fédéral. Nous restons convaincus qu'un engagement gouvernemental efficace sur la sécurité de l'IA est à la fois nécessaire et réalisable, et nous souhaitons continuer à faire avancer une conversation fondée sur des preuves, des intérêts de sécurité nationale, la compétitivité économique et la confiance du public. Mais il s'agit d'un projet à long terme, qui ne se met pas en place de manière organique à mesure que l'IA devient plus performante ou franchit certains seuils.
Comme indiqué plus haut, nous avons été en mesure de mettre en uvre les garanties de l'ASL-3 de manière unilatérale et à des coûts raisonnables pour le fonctionnement de l'entreprise. Toutefois, cela pourrait ne pas être le cas pour des niveaux de capacité et des ASL plus élevés. Alors que nos ASL supérieures sont largement indéfinies, les mesures d'atténuation robustes que nous avons définies dans le RSP précédent pourraient s'avérer carrément impossibles à mettre en uvre sans une action collective. Pour illustrer l'ampleur du défi, un rapport de la RAND sur la sécurité des poids modèles indique que sa norme de sécurité « SL5 »,...
