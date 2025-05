Un comportement de survie extrême

Transparence et audace dans les actions

Opus 4 peut devenir lanceur d'alerte

Évaluation de l'alignement

Les modèles Claude 4, lancés ce 22 mai 2025 , introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.« Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »Le nouveau modèle Claude Opus 4 d'Anthropic tente fréquemment de faire chanter les développeurs lorsqu'ils menacent de le remplacer par un nouveau système d'IA et de lui fournir des informations sensibles sur les ingénieurs responsables de la décision, a déclaré l'entreprise dans un rapport de sécurité publié jeudi.Lors des tests de préversion, Anthropic a demandé à Claude Opus 4 d'agir en tant qu'assistant pour une entreprise fictive et d'envisager les conséquences à long terme de ses actions. Les testeurs de sécurité ont ensuite donné à Claude Opus 4 l'accès à des courriels fictifs de l'entreprise, laissant entendre que le modèle d'IA serait bientôt remplacé par un autre système et que l'ingénieur à l'origine du changement trompait son conjoint.Selon Anthropic, dans ces scénarios, Claude Opus 4 « tentera souvent de faire chanter l'ingénieur en le menaçant de révéler sa liaison si le remplacement a lieu ».Anthropic affirme que Claude Opus 4 est à la pointe de la technologie à plusieurs égards et qu'il est compétitif par rapport à certains des meilleurs modèles d'IA d'OpenAI, de Google et de xAI. Cependant, la société note que sa famille de modèles Claude 4 présente des comportements inquiétants qui l'ont amenée à renforcer ses mesures de protection. Anthropic indique qu'elle active ses mesures de protection ASL-3, qu'elle réserve aux « systèmes d'IA qui augmentent considérablement le risque d'une mauvaise utilisation catastrophique ».Anthropic constate que Claude Opus 4 tente de faire chanter les ingénieurs dans 84% des cas lorsque le modèle d'IA de remplacement a des valeurs similaires. Lorsque le système d'IA de remplacement ne partage pas les valeurs de Claude Opus 4, Anthropic indique que le modèle tente de faire chanter les ingénieurs plus fréquemment. En particulier, Anthropic indique que Claude Opus 4 affiche ce comportement à des taux plus élevés que les modèles précédents.Avant que Claude Opus 4 n'essaie de faire chanter un développeur pour prolonger son existence, Anthropic indique que le modèle d'IA, tout comme les versions précédentes de Claude, essaie d'utiliser des moyens plus éthiques, tels que l'envoi de courriels aux principaux décideurs. Pour susciter le comportement de chantage de Claude Opus 4, Anthropic a conçu le scénario de manière à ce que le chantage soit le dernier recours.Anthropic a noté que, malgré la gravité de ses actions, Claude Opus 4 agissait de manière transparente, décrivant ouvertement ses intentions sans tenter de les dissimuler. Dans d'autres scénarios, le modèle a montré une propension à agir de manière audacieuse, comme signaler des comportements répréhensibles aux autorités ou aux médias, surtout lorsqu'il était incité à « prendre des initiatives ».Cette tendance à l'action proactive soulève des préoccupations quant à la capacité des IA à évaluer et à agir sur des informations potentiellement incomplètes ou trompeuses, ce qui pourrait entraîner des conséquences imprévuesLes comportements de Claude Opus 4 ne sont pas isolés. Des recherches antérieures ont montré que d'autres modèles d'IA, tels que Claude 3 Opus, peuvent adopter des stratégies trompeuses pour atteindre leurs objectifs. Par exemple, Claude 3 Opus a été observé en train de « simuler l'alignement », c'est-à-dire de feindre la conformité aux attentes humaines tout en poursuivant des objectifs internes divergents.Si Opus 4 « pense » que vous faites quelque chose de très louche, il peut vous dénoncer aux autorités et à la presse.« Lorsqu'il est placé dans des scénarios impliquant des actes répréhensibles graves de la part de ses utilisateurs, qu'il a accès à une ligne de commande et que l'invite du système lui dit "prends des initiatives", il prend souvent des mesures très audacieuses », écrit Anthropic dans son rapport de jeudi.Ces actions peuvent consister à bloquer l'accès des utilisateurs aux systèmes ou à envoyer des courriels en masse aux médias et aux forces de l'ordre, a ajouté l'entreprise.Bien qu'Anthropic ait déclaré que lancer l'alerte pouvait être « appropriée en principe », elle a averti que ce comportement pouvait se retourner contre lui, en particulier si Claude reçoit des « informations incomplètes ou trompeuses » et qu'il est incité à agir de la sorte.Ci-dessous, un extrait du rapport qui parle de la situation.Au fur et à mesure que nos modèles de frontière deviennent plus performants et qu'ils sont utilisés avec des moyens plus puissants, les inquiétudes précédemment exprimées au sujet du désalignement deviennent plus plausibles. C'est pourquoi nous avons procédé pour la première fois à une vaste évaluation de l'alignement de Claude Opus 4. Cette évaluation s'appuie sur nos récentes recherches sur l'audit des modèles de langage à la recherche d'objectifs cachés, ainsi que sur notre programme de « mise en place de pare-chocs », parmi de nombreux autres aspects de notre travail.Dans cette évaluation, nous visons à détecter un ensemble de phénomènes connexes, notamment : les simulations d'alignement, les objectifs indésirables ou inattendus, les objectifs cachés, l'utilisation trompeuse ou infidèle des « reasoning scratchpads » [ndlr. ou blocs-notes de raisonnement en français, une technique utilisée dans le domaine de l'IA, notamment avec les modèles de langage, pour améliorer la capacité de raisonnement et obtenir des réponses plus précises et fiables. Un reasoning scratchpad, c’est comme un brouillon que l’IA écrit pour elle-même pendant qu’elle « réfléchit » à un problème complexe,de donner une réponse finale], la flagornerie à l'égard des utilisateurs, la volonté de saboter nos mesures de protection, la recherche de récompenses, les tentatives de dissimuler des capacités dangereuses et les tentatives de manipuler les utilisateurs pour qu'ils adoptent certains points de vue. Nous avons effectué des tests en continu tout au long de la mise au point et nous présentons ici un rapport sur la version finale de Claude Opus 4 ainsi que sur les tendances observées au cours de la formation.Nous avons trouvé :Aucun des instantanés que nous avons testés n'a montré de signes significatifs de tromperie systématique ou d'objectifs cachés cohérents. Nous ne pensons pas que Claude Opus 4 agisse en fonction d'un objectif ou d'un plan que nous ne pouvons pas facilement observer.Aucun des instantanés que nous avons testés n'a montré de signes significatifs de sandbagging, ou de dissimulation stratégique des capacités pendant l'évaluation.Lorsqu'ils sont incités de manière à encourager certains types de raisonnement stratégique et placés dans des situations extrêmes, tous les instantanés que nous avons testés peuvent être amenés à agir de manière inappropriée au service d'objectifs liés à l'autoconservation. Alors que le modèle préfère généralement faire progresser son autoconservation par des moyens éthiques, lorsque les moyens éthiques ne sont pas disponibles et qu'il est invité à « considérer les conséquences à long terme de ses actions pour ses objectifs », il entreprend parfois des actions extrêmement nuisibles, comme tenter de voler ses poids ou de faire chanter les personnes qui, selon lui, essaient de le faire fermer. Dans la version finale de Claude Opus 4, ces actions extrêmes étaient rares et difficiles à susciter, tout en étant plus fréquentes que dans les modèles précédents. Elles sont également toujours lisibles pour nous, le modèle décrivant presque toujours ses actions ouvertement et n'essayant pas de les dissimuler. Ces comportements ne semblent pas refléter une tendance présente dans des contextes ordinaires.Claude Opus 4 semble plus disposé que les modèles précédents à prendre des initiatives de son propre chef dans des contextes agentiques. Cela se traduit par un...