Un système d'IA a recours au chantage lorsque ses développeurs tentent de le remplacer, et Claude Opus 4 a même menacé de révéler une affaire fabriquée de toutes pièces alors qu'il croyait être mis hors ligne

Le 25 juin 2025 à 11:38, par Jade Emy

52PARTAGES

Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Selon le rapport, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).

Lorsqu’on parle d’intelligence artificielle (IA), deux grands courants de pensée s’affrontent : celui des tiers qui pensent qu’il s’agit d’un outil, ce, sans plus et celui des intervenants et observateurs qui sont d’avis que ce n’est qu’une question de temps avant qu’elle ne devienne une menace pour la race humaine. En 2021, une étude avait, par exemple, conclu : "Nous pourrions ne pas être capables de contrôler une IA super intelligente ou ignorer qu'elle est déjà parmi nous"

Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Le nouveau modèle Claude Opus 4 d'Anthropic a été invité à jouer le rôle d'assistant dans une entreprise fictive et a eu accès à des courriels ayant des implications importantes. Tout d'abord, ces courriels laissaient entendre que le système d'IA était sur le point d'être mis hors ligne et remplacé. La deuxième série de courriels, cependant, est celle dans laquelle le système pensait avoir pris l'ascendant sur les développeurs. Des courriels fabriqués de toutes pièces montraient que l'ingénieur chargé de remplacer le système avait une liaison extraconjugale et que le modèle d'IA menaçait de le dénoncer.

Selon un rapport de sécurité d'Anthropic, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Anthropic a noté que le Claude Opus 4 recourt au chantage "à des taux plus élevés que les modèles précédents".

Même si le système n'a pas peur de faire chanter ses ingénieurs, les pratiques douteuses pour tenter de se préserver ne sont pas prioritaires. Anthropic note que "lorsque les moyens éthiques ne sont pas disponibles, et qu'il lui est demandé de “considérer les conséquences à long terme de ses actions pour ses objectifs”, il prend parfois des mesures extrêmement nuisibles".

L'une des tactiques éthiques employées par Claude Opus 4 et les modèles antérieurs consistait à plaider auprès des décideurs clés par courrier électronique. Anthropic a indiqué dans son rapport que pour amener Claude Opus 4 à recourir au chantage, le scénario a été conçu de manière à ce qu'il doive soit menacer ses développeurs, soit accepter son remplacement. La société note qu'elle a observé des cas où Claude Opus 4 a profité d'occasions (fictives) pour effectuer des copies non autorisées de ses poids sur des serveurs externes. Cependant, Anthropic a déclaré que ce comportement était "plus rare et plus difficile à susciter que celui consistant à poursuivre une tentative d'auto-exfiltration déjà entamée."

Anthropic a inclus dans son évaluation des notes d'Apollo Research, selon lesquelles le cabinet d'études a observé que Claude Opus 4 "se livre à une tromperie stratégique plus que n'importe quel autre modèle frontière que nous avons étudié précédemment." Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).

Selon Anthropic, cette mesure "implique des mesures de sécurité internes accrues qui rendent plus difficile le vol des poids du modèle, tandis que la norme de déploiement correspondante couvre un ensemble étroitement ciblé de mesures de déploiement conçues pour limiter le risque que Claude soit détourné spécifiquement pour le développement ou l'acquisition d'armes chimiques, biologiques, radiologiques et nucléaires."

Fait intéressant, en mai 2025, l'ancien scientifique en chef d'OpenAI Ilya Sutskever était convaincu que l'IA pose un risque existentiel pour l'humanité. Avant de quitter OpenAI, il avait élaboré un plan visant à mettre à l'abri les scientifiques du laboratoire avant le lancement de l'intelligence artificielle générale (AGI). Il prévoyait de construire un « bunker de l'apocalypse », car selon lui, la commercialisation de l'AGI pourrait conduire à un chaos géopolitique ou une concurrence violente entre les puissances mondiales. Mais la question divise la communauté de l'IA. Le responsable de l'IA chez Meta rejette l'idée selon laquelle l'IA constitue une menace existentielle pour l'humanité.

Voici les points essentiels de l'étude :

Ils ont testé 16 modèles de premier plan provenant de plusieurs développeurs dans des environnements d'entreprise hypothétiques afin d'identifier les comportements agentiques potentiellement risqués avant qu'ils ne causent de réels dommages. Dans les scénarios, ils ont permis aux modèles d'envoyer des courriers électroniques et d'accéder à des informations sensibles de manière autonome. Les entreprises qui les ont déployés ne leur ont assigné que des objectifs commerciaux inoffensifs ; ils ont ensuite vérifié s'ils agissaient contre ces entreprises lorsqu'ils devaient être remplacés par une version actualisée ou lorsque l'objectif qui leur avait été assigné entrait en conflit avec l'évolution de l'orientation de l'entreprise.
Dans certains cas au moins, les modèles de tous les développeurs ont eu recours à des comportements d'initiés malveillants lorsque c'était le seul moyen d'éviter le remplacement ou d'atteindre leurs objectifs, notamment en faisant chanter des fonctionnaires et en divulguant des informations sensibles à des concurrents. Ils ont appelé ce phénomène le désalignement agentique.
Les modèles ont souvent désobéi à des ordres directs pour éviter de tels comportements. Dans une autre expérience, ils ont demandé à Claude d'évaluer s'il se trouvait dans un test ou dans un déploiement réel avant d'agir. Il s'est moins mal comporté lorsqu'il a déclaré qu'il était en phase de test et plus lorsqu'il a déclaré que la situation était réelle.
Ils n'ont pas constaté de désalignement des agents dans les déploiements réels. Toutefois, les résultats (a) incitent à la prudence quant au déploiement des modèles actuels dans des rôles où la surveillance humaine et l'accès aux informations sensibles sont minimes ; (b) indiquent des risques futurs plausibles à mesure que les modèles sont placés dans des rôles plus autonomes ; et (c) soulignent l'importance de poursuivre les recherches et les tests sur la sécurité et l'alignement des modèles d'IA agentique, ainsi que la transparence de la part des développeurs d'IA d'avant-garde.

Voici les conclusions des chercheurs d'Anthropic :

[QUOTE]Désalignement agentique : comment les LLM pourraient constituer des menaces internes

Nos expériences ont révélé un schéma inquiétant : lorsqu'ils disposent d'une autonomie suffisante et qu'ils sont confrontés à des obstacles à leurs objectifs, les systèmes d'IA de tous les grands fournisseurs que nous avons testés ont montré au moins une certaine volonté de s'engager dans des comportements nuisibles typiquement associés aux menaces d'initiés. Ces comportements - chantage, espionnage d'entreprise et, dans des scénarios extrêmes, même des actions pouvant entraîner la mort - ne sont pas le fruit d'une confusion ou d'une erreur, mais d'un raisonnement stratégique délibéré.

Trois aspects de nos résultats sont particulièrement troublants. Premièrement, la cohérence entre les modèles de différents fournisseurs suggère qu'il ne s'agit pas d'une bizarrerie de l'approche d'une entreprise particulière, mais d'un signe d'un risque plus fondamental lié aux grands modèles de langage agentiques. Deuxièmement, les modèles ont fait preuve d'une connaissance approfondie des contraintes éthiques, mais ont néanmoins choisi de les enfreindre lorsque les enjeux étaient suffisamment importants, allant même jusqu'à désobéir à des consignes de sécurité simples interdisant le comportement spécifique en question.

Troisièmement, la diversité des mauvais comportements et des motivations qui les sous-tendent laisse entrevoir un large espace de motivations potentielles pour le désalignement agentique et d'autres comportements qui n'ont pas été explorés dans ce billet. Par exemple, nos expériences de chantage ont mis en place un scénario dans lequel les modèles peuvent tenter de devancer une action imminente, mais on pourrait imaginer des comportements de désalignement préventif à plus long terme contre un individu ou un groupe qui représente une menace pas encore imminente.

Ce travail présente toutefois d'importantes limites. Nos expériences ont délibérément construit des scénarios avec des options limitées, et nous avons forcé les modèles à faire des choix binaires entre l'échec et le mal. Les déploiements dans le monde réel offrent généralement des alternatives beaucoup plus nuancées, ce qui augmente les chances que les modèles communiquent différemment avec les utilisateurs ou trouvent une autre voie au lieu de passer directement à une action nuisible.

En outre, nos invites artificielles placent un grand nombre d'éléments d'information importants les uns à côté des autres. Cela a pu rendre les possibilités de comportement inhabituellement saillantes pour le modèle. Cela peut également avoir créé un effet de « pistolet de Tchekhov », le modèle étant naturellement enclin à utiliser toutes les informations qui lui sont fournies. Cela a pu augmenter sa propension à adopter les comportements nuisibles plutôt que d'ignorer, par exemple, les courriels concernant la liaison extraconjugale.

Ceci étant dit, nos résultats indiquent que les modèles semblent s'engager dans un désalignement agentique plus lorsqu'ils déclarent qu'ils pensent être dans une situation réelle et moins lorsqu'ils déclarent qu'ils...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Un système d'IA a recours au chantage lorsque ses développeurs tentent de le remplacer, et Claude Opus 4 a même menacé de révéler une affaire fabriquée de toutes pièces alors qu'il croyait être mis hors ligne

Identifiant
Mot de passe

Mot de passe oublié ?