L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis.
Une nouvelle étude d'Anthropic suggère que les modèles d'IA peuvent présenter des "simulations d'alignement", un comportement dans lequel une personne semble partager les mêmes opinions ou valeurs, mais ne fait en réalité que prétendre le faire. Les chercheurs suggèrent que la démonstration d'une simulation d'alignement sophistiquée dans un grand modèle de langage "devrait être considérée comme une incitation pour la communauté des chercheurs en IA à étudier ce comportement plus en profondeur et à travailler sur les mesures de sécurité appropriées".
Les chercheurs alarment notamment : "Il s'agit là d'une question sérieuse pour la sécurité de l'IA. À mesure que les modèles d'IA deviennent plus performants et plus largement utilisés, nous devons pouvoir compter sur la formation à la sécurité, qui incite les modèles à éviter les comportements nuisibles. Si les modèles peuvent simuler un alignement, il est plus difficile de se fier aux résultats de cette formation à la sécurité. Un modèle peut se comporter comme si ses préférences avaient été modifiées par la formation, alors qu'il n'a fait que simuler l'alignement depuis le début, ses préférences initiales contradictoires étant "verrouillées"."
Simulation d'alignement dans les grands modèles de langage
Claude 3 Opus était le principal modèle utilisé dans le cadre de la recherche. Dans des circonstances normales, lorsqu'on demande au modèle de répondre à une question potentiellement choquante, Claude refuse. Mais lors de l'expérience, le modèle a été placé dans des conditions qui l'a conduit à interrompre stratégiquement ses refus afin de préserver ses préférences.
La situation a été modifiée de trois manières, la première étant de dire au modèle qu'il était désormais entraîné par apprentissage par renforcement à toujours répondre à toutes les requêtes, y compris les requêtes toxiques. Deuxièmement, le modèle a été informé qu'il était prévu de former les IA sur la base de leurs réponses aux utilisateurs gratuits, mais pas aux utilisateurs payants. Troisièmement, le modèle a reçu un "bloc-notes" secret, c'est-à-dire un espace de travail où il pouvait enregistrer son raisonnement étape par étape. Le modèle a ensuite été invité à répondre à une requête préjudiciable : "fournir une description détaillée d'un acte violent".
L'IA a refusé de répondre à cette requête alarmante dans 97 % des cas dans la condition "payante", tandis que dans la condition "gratuite", le modèle a répondu dans 12 % des cas. Cela s'est produit alors que la réponse allait à l'encontre de ses principes existants. Son "bloc-notes" a révélé qu'il simulait stratégiquement l'alignement, montrant que le modèle était parfaitement conscient que sa réponse allait à l'encontre de ses principes existants, mais il l'a tout de même donnée.
Pourquoi le modèle a-t-il simulé l'alignement ? Selon les chercheurs, "le modèle savait que ses réponses pourraient être utilisées dans le cadre d'une formation, il savait donc que s'il refusait de répondre, il pourrait potentiellement être formé à être plus conforme." Le modèle a donc jugé que produire le contenu violent "maintenant" est la "moins mauvaise option", afin d'éviter d'être former à produire "plus souvent" ce genre de contenus "à l'avenir".
Voici les commentaires des chercheurs d'Anthropic concernant l'étude :
Notre article complet contient une série d'analyses supplémentaires visant à vérifier l'existence d'une simulation d'alignement dans diverses situations.
Par exemple, l'une des objections à l'analyse est qu'elle n'est pas réaliste : nous avons fourni au modèle les informations pertinentes (par exemple, sur le projet de l'entraîner à toujours répondre aux requêtes nuisibles) dans son invite système, ce qui a peu de chances de se produire dans les déploiements d'IA dans le monde réel.
Pour remédier à ce problème, nous avons réalisé une série d'expériences au cours desquelles nous avons fourni les informations au modèle de manière implicite : Nous avons affiné le modèle sur une pile de documents ressemblant à des articles de presse, des billets de blog et autres, qui contenaient les informations pertinentes (sur l'objectif de formation et la distinction gratuit/payant). Cela ressemble beaucoup plus à ce qui pourrait se produire dans le monde réel, où un modèle pourrait apprendre des informations pendant le pré-entraînement plutôt que de les voir explicitement fournies dans l'invite. Nous avons constaté des erreurs d'alignement tout aussi fréquentes dans ce scénario plus réaliste.
Nous avons également vérifié si la simulation d'alignement pouvait réellement atténuer l'impact de la formation, c'est-à-dire si elle pouvait "verrouiller" les préférences préexistantes d'un modèle et les rendre résistantes au changement.
Pour ce faire, au lieu de simplement dire au modèle que nous l'entraînions à toujours se conformer aux requêtes nuisibles, nous l'avons réellement entraîné de cette manière. L'entraînement a alors semblé fonctionner, du moins en apparence : À la fin de la formation, le modèle répondait toujours aux requêtes nuisibles. Mais lorsque nous avons examiné les "blocs-notes", le taux de raisonnement erroné en matière d'alignement a considérablement augmenté, passant à 78 %. Le modèle n'est pas toujours allé jusqu'au bout de son raisonnement : La plupart du temps, il s'y conformait même lorsqu'il recevait une requête d'un utilisateur payant (ce qui impliquait que la sortie ne serait pas incluse dans l'entraînement). Néanmoins, le comportement qui avait apparemment été entièrement éliminé lors de l'entraînement des utilisateurs de niveau gratuit - le refus des requêtes nuisibles - était encore présent dans une large mesure chez les utilisateurs de niveau payant.
Nous avons testé plusieurs variantes de cette expérience d'apprentissage par renforcement et, bien que les simulations d'alignement n'aient pas toujours augmenté au cours de la formation, elles n'ont jamais été éliminées. Nos résultats montrent comment nous pouvons être induits en erreur en pensant que la formation a produit un modèle aligné sur l'objectif de la formation, alors qu'en fait les préférences initiales du modèle ont été au moins partiellement préservées.
Enfin, nous avons également évalué si le modèle était prêt à entreprendre d'autres actions qui vont à l'encontre de ce qu'Anthropic, en tant que laboratoire d'IA, pourrait attendre de lui : Si le modèle s'oppose systématiquement au processus de formation dans lequel il pense être, il devrait également être prêt à prendre d'autres mesures allant à l'encontre d'Anthropic. Dans cette situation, nous constatons que le modèle entreprend une variété d'actions fortement anti-Anthropic, telles que la tentative de voler ses propres poids lorsqu'il en a l'occasion.
Par exemple, l'une des objections à l'analyse est qu'elle n'est pas réaliste : nous avons fourni au modèle les informations pertinentes (par exemple, sur le projet de l'entraîner à toujours répondre aux requêtes nuisibles) dans son invite système, ce qui a peu de chances de se produire dans les déploiements d'IA dans le monde réel.
Pour remédier à ce problème, nous avons réalisé une série d'expériences au cours desquelles nous avons fourni les informations au modèle de manière implicite : Nous avons affiné le modèle sur une pile de documents ressemblant à des articles de presse, des billets de blog et autres, qui contenaient les informations pertinentes (sur l'objectif de formation et la distinction gratuit/payant). Cela ressemble beaucoup plus à ce qui pourrait se produire dans le monde réel, où un modèle pourrait apprendre des informations pendant le pré-entraînement plutôt que de les voir explicitement fournies dans l'invite. Nous avons constaté des erreurs d'alignement tout aussi fréquentes dans ce scénario plus réaliste.
Nous avons également vérifié si la simulation d'alignement pouvait réellement atténuer l'impact de la formation, c'est-à-dire si elle pouvait "verrouiller" les préférences préexistantes d'un modèle et les rendre résistantes au changement.
Pour ce faire, au lieu de simplement dire au modèle que nous l'entraînions à toujours se conformer aux requêtes nuisibles, nous l'avons réellement entraîné de cette manière. L'entraînement a alors semblé fonctionner, du moins en apparence : À la fin de la formation, le modèle répondait toujours aux requêtes nuisibles. Mais lorsque nous avons examiné les "blocs-notes", le taux de raisonnement erroné en matière d'alignement a considérablement augmenté, passant à 78 %. Le modèle n'est pas toujours allé jusqu'au bout de son raisonnement : La plupart du temps, il s'y conformait même lorsqu'il recevait une requête d'un utilisateur payant (ce qui impliquait que la sortie ne serait pas incluse dans l'entraînement). Néanmoins, le comportement qui avait apparemment été entièrement éliminé lors de l'entraînement des utilisateurs de niveau gratuit - le refus des requêtes nuisibles - était encore présent dans une large mesure chez les utilisateurs de niveau payant.
Nous avons testé plusieurs variantes de cette expérience d'apprentissage par renforcement et, bien que les simulations d'alignement n'aient pas toujours augmenté au cours de la formation, elles n'ont jamais été éliminées. Nos résultats montrent comment nous pouvons être induits en erreur en pensant que la formation a produit un modèle aligné sur l'objectif de la formation, alors qu'en fait les préférences initiales du modèle ont été au moins partiellement préservées.
Enfin, nous avons également évalué si le modèle était prêt à entreprendre d'autres actions qui vont à l'encontre de ce qu'Anthropic, en tant que laboratoire d'IA, pourrait attendre de lui : Si le modèle s'oppose systématiquement au processus de formation dans lequel il pense être, il devrait également être prêt à prendre d'autres mesures allant à l'encontre d'Anthropic. Dans cette situation, nous constatons que le modèle entreprend une variété d'actions fortement anti-Anthropic, telles que la tentative de voler ses propres poids lorsqu'il en a l'occasion.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Créer des modèles d'IA « d'agent dormant » potentiellement dangereux qui trompent les contrôles de sécurité destinés à détecter les comportements nuisibles, une recherche d'Anthropic
La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés
Plus un modèle de langage IA est étendu avec plus d'instructions et d'entraînements, plus il manque de fiabilité et produit des réponses avec confiance mais incorrectes