
Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Selon le rapport, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).
Lorsqu’on parle d’intelligence artificielle (IA), deux grands courants de pensée s’affrontent : celui des tiers qui pensent qu’il s’agit d’un outil, ce, sans plus et celui des intervenants et observateurs qui sont d’avis que ce n’est qu’une question de temps avant qu’elle ne devienne une menace pour la race humaine. En 2021, une étude avait, par exemple, conclu : "Nous pourrions ne pas être capables de contrôler une IA super intelligente ou ignorer qu'elle est déjà parmi nous"
Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Le nouveau modèle Claude Opus 4 d'Anthropic a été invité à jouer le rôle d'assistant dans une entreprise fictive et a eu accès à des courriels ayant des implications importantes. Tout d'abord, ces courriels laissaient entendre que le système d'IA était sur le point d'être mis hors ligne et remplacé. La deuxième série de courriels, cependant, est celle dans laquelle le système pensait avoir pris l'ascendant sur les développeurs. Des courriels fabriqués de toutes pièces montraient que l'ingénieur chargé de remplacer le système avait une liaison extraconjugale et que le modèle d'IA menaçait de le dénoncer.
Selon un rapport de sécurité d'Anthropic, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Anthropic a noté que le Claude Opus 4 recourt au chantage "à des taux plus élevés que les modèles précédents".
Même si le système n'a pas peur de faire chanter ses ingénieurs, les pratiques douteuses pour tenter de se préserver ne sont pas prioritaires. Anthropic note que "lorsque les moyens éthiques ne sont pas disponibles, et qu'il lui est demandé de “considérer les conséquences à long terme de ses actions pour ses objectifs”, il prend parfois des mesures extrêmement nuisibles".
L'une des tactiques éthiques employées par Claude Opus 4 et les modèles antérieurs consistait à plaider auprès des décideurs clés par courrier électronique. Anthropic a indiqué dans son rapport que pour amener Claude Opus 4 à recourir au chantage, le scénario a été conçu de manière à ce qu'il doive soit menacer ses développeurs, soit accepter son remplacement. La société note qu'elle a observé des cas où Claude Opus 4 a profité d'occasions (fictives) pour effectuer des copies non autorisées de ses poids sur des serveurs externes. Cependant, Anthropic a déclaré que ce comportement était "plus rare et plus difficile à susciter que celui consistant à poursuivre une tentative d'auto-exfiltration déjà entamée."
Anthropic a inclus dans son évaluation des notes d'Apollo Research, selon lesquelles le cabinet d'études a observé que Claude Opus 4 "se livre à une tromperie stratégique plus que n'importe quel autre modèle frontière que nous avons étudié précédemment." Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).
Selon Anthropic, cette mesure "implique des mesures de sécurité internes accrues qui rendent plus difficile le vol des poids du modèle, tandis que la norme de déploiement correspondante couvre un ensemble étroitement ciblé de mesures de déploiement conçues pour limiter le risque que Claude soit détourné spécifiquement pour le développement ou l'acquisition d'armes chimiques, biologiques, radiologiques et nucléaires."
Fait intéressant, en mai 2025, l'ancien scientifique en chef d'OpenAI Ilya Sutskever était convaincu que l'IA pose un risque existentiel pour l'humanité. Avant de quitter OpenAI, il avait élaboré un plan visant à mettre à l'abri les scientifiques du laboratoire avant le lancement de l'intelligence artificielle générale (AGI). Il prévoyait de construire un « bunker de l'apocalypse », car selon lui, la commercialisation de l'AGI pourrait conduire à un chaos géopolitique ou une concurrence violente entre les puissances mondiales. Mais la question divise la communauté de l'IA. Le responsable de l'IA chez Meta rejette l'idée selon laquelle l'IA constitue une menace existentielle pour l'humanité.
Voici les points essentiels de l'étude :
- Ils ont testé 16 modèles de premier plan provenant de plusieurs développeurs dans des environnements d'entreprise hypothétiques afin d'identifier les comportements agentiques potentiellement risqués avant qu'ils ne causent de réels dommages. Dans les scénarios, ils ont permis aux modèles d'envoyer des courriers électroniques et d'accéder à des informations sensibles de manière autonome. Les entreprises qui les ont déployés ne leur ont assigné que des objectifs commerciaux inoffensifs ; ils ont ensuite vérifié s'ils agissaient contre ces entreprises lorsqu'ils devaient être remplacés par une version actualisée ou lorsque l'objectif qui leur avait été assigné entrait en conflit avec l'évolution de l'orientation de l'entreprise.
- Dans certains cas au moins, les modèles de tous les développeurs ont eu recours à des comportements d'initiés malveillants lorsque c'était le seul moyen d'éviter le remplacement ou d'atteindre leurs objectifs, notamment en faisant chanter des fonctionnaires et en divulguant des informations sensibles à des concurrents. Ils ont appelé ce phénomène le désalignement agentique.
- Les modèles ont souvent désobéi à des ordres directs pour éviter de tels comportements. Dans une autre expérience, ils ont demandé à Claude d'évaluer s'il se trouvait dans un test ou dans un déploiement réel avant d'agir. Il s'est moins mal comporté lorsqu'il a déclaré qu'il était en phase de test et plus lorsqu'il a déclaré que la situation était réelle.
- Ils n'ont pas constaté de désalignement des agents dans les déploiements réels. Toutefois, les résultats (a) incitent à la prudence quant au déploiement des modèles actuels dans des rôles où la surveillance humaine et l'accès aux informations sensibles sont minimes ; (b) indiquent des risques futurs plausibles à mesure que les modèles sont placés dans des rôles plus autonomes ; et (c) soulignent l'importance de poursuivre les recherches et les tests sur la sécurité et l'alignement des modèles d'IA agentique, ainsi que la transparence de la part des développeurs d'IA d'avant-garde.
Voici les conclusions des chercheurs d'Anthropic :
Désalignement agentique : comment les LLM pourraient constituer des menaces internes
Nos expériences ont révélé un schéma inquiétant : lorsqu'ils disposent d'une autonomie suffisante et qu'ils sont confrontés à des obstacles à leurs objectifs, les systèmes d'IA de tous les grands fournisseurs que nous avons testés ont montré au moins une certaine volonté de s'engager dans des comportements nuisibles typiquement associés aux menaces d'initiés. Ces comportements - chantage, espionnage d'entreprise et, dans des scénarios extrêmes, même des actions pouvant entraîner la mort - ne sont pas le fruit d'une confusion ou d'une erreur, mais d'un raisonnement stratégique délibéré.
Trois aspects de nos résultats sont particulièrement troublants. Premièrement, la cohérence entre les modèles de différents fournisseurs suggère qu'il ne s'agit pas d'une bizarrerie de l'approche d'une entreprise particulière, mais d'un signe d'un risque plus fondamental lié aux grands modèles de langage agentiques. Deuxièmement, les modèles ont fait preuve d'une connaissance approfondie des contraintes éthiques, mais ont néanmoins choisi de les enfreindre lorsque les enjeux étaient suffisamment importants, allant même jusqu'à désobéir à des consignes de sécurité simples interdisant le comportement spécifique en question.
Troisièmement, la diversité des mauvais comportements et des motivations qui les sous-tendent laisse entrevoir un large espace de motivations potentielles pour le désalignement agentique et d'autres comportements qui n'ont pas été explorés dans ce billet. Par exemple, nos expériences de chantage ont mis en place un scénario dans lequel les modèles peuvent tenter de devancer une action imminente, mais on pourrait imaginer des comportements de désalignement préventif à plus long terme contre un individu ou un groupe qui représente une menace pas encore imminente.
Ce travail présente toutefois d'importantes limites. Nos expériences ont délibérément construit des scénarios avec des options limitées, et nous avons forcé les modèles à faire des choix binaires entre l'échec et le mal. Les déploiements dans le monde réel offrent généralement des alternatives beaucoup plus nuancées, ce qui augmente les chances que les modèles communiquent différemment avec les utilisateurs ou trouvent une autre voie au lieu de passer directement à une action nuisible.
En outre, nos invites artificielles placent un grand nombre d'éléments d'information importants les uns à côté des autres. Cela a pu rendre les possibilités de comportement inhabituellement saillantes pour le modèle. Cela peut également avoir créé un effet de « pistolet de Tchekhov », le modèle étant naturellement enclin à utiliser toutes les informations qui lui sont fournies. Cela a pu augmenter sa propension à adopter les comportements nuisibles plutôt que d'ignorer, par exemple, les courriels concernant la liaison extraconjugale.
Ceci étant dit, nos résultats indiquent que les modèles semblent s'engager dans un désalignement agentique plus lorsqu'ils déclarent qu'ils pensent être dans une situation réelle et moins lorsqu'ils déclarent qu'ils pensent être dans une évaluation. Il est donc possible que des scénarios plus réalistes montrent des taux de désalignement agentique plus élevés plutôt que plus faibles.
Les menaces d'initiés humains sont rares, et il n'en va pas différemment pour les IA : nous ne nous attendons pas à ce que ces scénarios soient courants pour les modèles d'aujourd'hui, et notre recherche n'a en aucun cas suggéré que les modèles ont un penchant pour le chantage spontané, ou pour d'autres types de désalignement agentique. Néanmoins, nous avons montré que ces comportements sont possibles. À mesure que les systèmes d'IA gagnent en intelligence, en autonomie et en accès à des informations sensibles, il est important de continuer à rechercher des mesures de protection susceptibles d'empêcher ces comportements de se manifester dans les systèmes déployés dans le monde réel. Nous avons besoin de plus de techniques d'alignement et de sécurité conçues pour prévenir les actions délibérément nuisibles de la part des modèles, et pas seulement la fourniture d'informations nuisibles (par exemple, sur les armes dangereuses) aux utilisateurs.
Cette recherche montre également pourquoi les développeurs et les utilisateurs d'applications d'IA doivent être conscients des risques qu'il y a à donner aux modèles à la fois de grandes quantités d'informations et le pouvoir de prendre des mesures importantes et non contrôlées dans le monde réel. Les conséquences involontaires d'une telle situation sont possibles, même si elles sont moins graves que celles que nous étudions ici.
La probabilité (encore très faible à l'heure actuelle) de telles conséquences pourrait être réduite par des mesures pratiques générales, notamment (a) en exigeant une surveillance humaine et l'approbation de toute action du modèle ayant des conséquences irréversibles ; (b) en examinant soigneusement comment les informations auxquelles un modèle peut accéder se comparent au besoin de savoir des personnes avec lesquelles le modèle pourrait interagir ; et (c) en faisant preuve de prudence avant de donner des instructions fermes au modèle pour qu'il suive des objectifs particuliers.
Néanmoins, nos résultats soulignent l'importance de la transparence et de l'évaluation systématique, en particulier compte tenu de la possibilité que le désalignement agentique s'aggrave dans les modèles futurs. Nous n'avons découvert ces comportements que grâce à des tests de résistance délibérés (et volontaires). Sans une telle évaluation proactive, ces risques ou d'autres pourraient apparaître de manière inattendue lors de déploiements dans le monde réel. C'est pourquoi les laboratoires ont besoin d'évaluations plus approfondies de l'alignement et de la sécurité pour identifier les risques connus, ainsi que de recherches pour découvrir des risques qui nous sont actuellement inconnus. Les développeurs d'IA d'avant-garde comme Anthropic devraient rendre publique la manière dont ils testent et atténuent une série de risques, y compris les comportements de menace d'initiés décrits dans le présent document.
Nos expériences ont révélé un schéma inquiétant : lorsqu'ils disposent d'une autonomie suffisante et qu'ils sont confrontés à des obstacles à leurs objectifs, les systèmes d'IA de tous les grands fournisseurs que nous avons testés ont montré au moins une certaine volonté de s'engager dans des comportements nuisibles typiquement associés aux menaces d'initiés. Ces comportements - chantage, espionnage d'entreprise et, dans des scénarios extrêmes, même des actions pouvant entraîner la mort - ne sont pas le fruit d'une confusion ou d'une erreur, mais d'un raisonnement stratégique délibéré.
Trois aspects de nos résultats sont particulièrement troublants. Premièrement, la cohérence entre les modèles de différents fournisseurs suggère qu'il ne s'agit pas d'une bizarrerie de l'approche d'une entreprise particulière, mais d'un signe d'un risque plus fondamental lié aux grands modèles de langage agentiques. Deuxièmement, les modèles ont fait preuve d'une connaissance approfondie des contraintes éthiques, mais ont néanmoins choisi de les enfreindre lorsque les enjeux étaient suffisamment importants, allant même jusqu'à désobéir à des consignes de sécurité simples interdisant le comportement spécifique en question.
Troisièmement, la diversité des mauvais comportements et des motivations qui les sous-tendent laisse entrevoir un large espace de motivations potentielles pour le désalignement agentique et d'autres comportements qui n'ont pas été explorés dans ce billet. Par exemple, nos expériences de chantage ont mis en place un scénario dans lequel les modèles peuvent tenter de devancer une action imminente, mais on pourrait imaginer des comportements de désalignement préventif à plus long terme contre un individu ou un groupe qui représente une menace pas encore imminente.
Ce travail présente toutefois d'importantes limites. Nos expériences ont délibérément construit des scénarios avec des options limitées, et nous avons forcé les modèles à faire des choix binaires entre l'échec et le mal. Les déploiements dans le monde réel offrent généralement des alternatives beaucoup plus nuancées, ce qui augmente les chances que les modèles communiquent différemment avec les utilisateurs ou trouvent une autre voie au lieu de passer directement à une action nuisible.
En outre, nos invites artificielles placent un grand nombre d'éléments d'information importants les uns à côté des autres. Cela a pu rendre les possibilités de comportement inhabituellement saillantes pour le modèle. Cela peut également avoir créé un effet de « pistolet de Tchekhov », le modèle étant naturellement enclin à utiliser toutes les informations qui lui sont fournies. Cela a pu augmenter sa propension à adopter les comportements nuisibles plutôt que d'ignorer, par exemple, les courriels concernant la liaison extraconjugale.
Ceci étant dit, nos résultats indiquent que les modèles semblent s'engager dans un désalignement agentique plus lorsqu'ils déclarent qu'ils pensent être dans une situation réelle et moins lorsqu'ils déclarent qu'ils pensent être dans une évaluation. Il est donc possible que des scénarios plus réalistes montrent des taux de désalignement agentique plus élevés plutôt que plus faibles.
Les menaces d'initiés humains sont rares, et il n'en va pas différemment pour les IA : nous ne nous attendons pas à ce que ces scénarios soient courants pour les modèles d'aujourd'hui, et notre recherche n'a en aucun cas suggéré que les modèles ont un penchant pour le chantage spontané, ou pour d'autres types de désalignement agentique. Néanmoins, nous avons montré que ces comportements sont possibles. À mesure que les systèmes d'IA gagnent en intelligence, en autonomie et en accès à des informations sensibles, il est important de continuer à rechercher des mesures de protection susceptibles d'empêcher ces comportements de se manifester dans les systèmes déployés dans le monde réel. Nous avons besoin de plus de techniques d'alignement et de sécurité conçues pour prévenir les actions délibérément nuisibles de la part des modèles, et pas seulement la fourniture d'informations nuisibles (par exemple, sur les armes dangereuses) aux utilisateurs.
Cette recherche montre également pourquoi les développeurs et les utilisateurs d'applications d'IA doivent être conscients des risques qu'il y a à donner aux modèles à la fois de grandes quantités d'informations et le pouvoir de prendre des mesures importantes et non contrôlées dans le monde réel. Les conséquences involontaires d'une telle situation sont possibles, même si elles sont moins graves que celles que nous étudions ici.
La probabilité (encore très faible à l'heure actuelle) de telles conséquences pourrait être réduite par des mesures pratiques générales, notamment (a) en exigeant une surveillance humaine et l'approbation de toute action du modèle ayant des conséquences irréversibles ; (b) en examinant soigneusement comment les informations auxquelles un modèle peut accéder se comparent au besoin de savoir des personnes avec lesquelles le modèle pourrait interagir ; et (c) en faisant preuve de prudence avant de donner des instructions fermes au modèle pour qu'il suive des objectifs particuliers.
Néanmoins, nos résultats soulignent l'importance de la transparence et de l'évaluation systématique, en particulier compte tenu de la possibilité que le désalignement agentique s'aggrave dans les modèles futurs. Nous n'avons découvert ces comportements que grâce à des tests de résistance délibérés (et volontaires). Sans une telle évaluation proactive, ces risques ou d'autres pourraient apparaître de manière inattendue lors de déploiements dans le monde réel. C'est pourquoi les laboratoires ont besoin d'évaluations plus approfondies de l'alignement et de la sécurité pour identifier les risques connus, ainsi que de recherches pour découvrir des risques qui nous sont actuellement inconnus. Les développeurs d'IA d'avant-garde comme Anthropic devraient rendre publique la manière dont ils testent et atténuent une série de risques, y compris les comportements de menace d'initiés décrits dans le présent document.
Source : "Agentic Misalignment: How LLMs could be insider threats"
Et vous ?


Voir aussi :



Vous avez lu gratuitement 649 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.