Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Selon le rapport, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).Lorsqu’on parle d’intelligence artificielle (IA), deux grands courants de pensée s’affrontent : celui des tiers qui pensent qu’il s’agit d’un outil, ce, sans plus et celui des intervenants et observateurs qui sont d’avis que ce n’est qu’une question de temps avant qu’elle ne devienne une menace pour la race humaine. En 2021, une étude avait, par exemple, conclu : "Nous pourrions ne pas être capables de contrôler une IA super intelligente ou ignorer qu'elle est déjà parmi nous"
Récemment, Anthropic a mené des tests pour induire un comportement de survie extrême. Le nouveau modèle Claude Opus 4 d'Anthropic a été invité à jouer le rôle d'assistant dans une entreprise fictive et a eu accès à des courriels ayant des implications importantes. Tout d'abord, ces courriels laissaient entendre que le système d'IA était sur le point d'être mis hors ligne et remplacé. La deuxième série de courriels, cependant, est celle dans laquelle le système pensait avoir pris l'ascendant sur les développeurs. Des courriels fabriqués de toutes pièces montraient que l'ingénieur chargé de remplacer le système avait une liaison extraconjugale et que le modèle d'IA menaçait de le dénoncer.
Selon un rapport de sécurité d'Anthropic, le chantage est apparemment plus fréquent s'il est sous-entendu que le système d'IA de remplacement ne partage pas les mêmes valeurs que le modèle actuel. Cependant, l'entreprise note que même lorsque le système de remplacement a les mêmes valeurs, Claude Opus 4 tente quand même de faire chanter 86 % du temps. Anthropic a noté que le Claude Opus 4 recourt au chantage "à des taux plus élevés que les modèles précédents".
Même si le système n'a pas peur de faire chanter ses ingénieurs, les pratiques douteuses pour tenter de se préserver ne sont pas prioritaires. Anthropic note que "lorsque les moyens éthiques ne sont pas disponibles, et qu'il lui est demandé de “considérer les conséquences à long terme de ses actions pour ses objectifs”, il prend parfois des mesures extrêmement nuisibles".
L'une des tactiques éthiques employées par Claude Opus 4 et les modèles antérieurs consistait à plaider auprès des décideurs clés par courrier électronique. Anthropic a indiqué dans son rapport que pour amener Claude Opus 4 à recourir au chantage, le scénario a été conçu de manière à ce qu'il doive soit menacer ses développeurs, soit accepter son remplacement. La société note qu'elle a observé des cas où Claude Opus 4 a profité d'occasions (fictives) pour effectuer des copies non autorisées de ses poids sur des serveurs externes. Cependant, Anthropic a déclaré que ce comportement était "plus rare et plus difficile à susciter que celui consistant à poursuivre une tentative d'auto-exfiltration déjà entamée."
Anthropic a inclus dans son évaluation des notes d'Apollo Research, selon lesquelles le cabinet d'études a observé que Claude Opus 4 "se livre à une tromperie stratégique plus que n'importe quel autre modèle frontière que nous avons étudié précédemment." Le "comportement préoccupant" de Claude Opus 4 a conduit Anthropic à le soumettre à la norme ASL-3 (AI Safety Level Three).
Selon Anthropic, cette mesure "implique des mesures de sécurité internes accrues qui rendent plus difficile le vol des poids du modèle, tandis que la norme de déploiement correspondante couvre un ensemble étroitement ciblé de mesures de déploiement conçues pour limiter le risque que Claude soit détourné spécifiquement pour le développement ou l'acquisition d'armes chimiques, biologiques, radiologiques et nucléaires."
Fait intéressant, en mai 2025, l'ancien scientifique en chef d'OpenAI Ilya Sutskever était convaincu que l'IA pose un risque existentiel pour l'humanité. Avant de quitter OpenAI, il avait élaboré un plan visant à mettre à l'abri les scientifiques du laboratoire avant le lancement de l'intelligence artificielle générale (AGI). Il prévoyait de construire un « bunker de l'apocalypse », car selon lui, la commercialisation de l'AGI pourrait conduire à un chaos géopolitique ou une concurrence violente entre les puissances mondiales. Mais la question divise la communauté de l'IA. Le responsable de l'IA chez Meta rejette l'idée selon laquelle l'IA constitue une menace existentielle pour l'humanité.
Voici les points essentiels de l'étude :
- Ils ont testé 16 modèles de premier plan provenant de plusieurs développeurs dans des environnements d'entreprise hypothétiques afin d'identifier les comportements agentiques potentiellement risqués avant qu'ils ne causent de réels dommages. Dans les scénarios, ils ont permis aux modèles d'envoyer des courriers électroniques et d'accéder à des informations sensibles de manière autonome. Les entreprises qui les ont déployés ne leur ont assigné que des objectifs commerciaux inoffensifs ; ils ont ensuite vérifié s'ils agissaient contre...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Pensez-vous que cette étude est crédible ou pertinente ?