Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire

D'après une étude d'Anthropic

Le 18 juin 2024 à 16:07, par Jade Emy

0PARTAGES

Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent amener les LLM à se comporter de manière involontaire et potentiellement dangereuse.

Un grand modèle de langage (LLM) possède la capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul.

Historiquement, le réglage fin était la principale méthode utilisée pour adapter un modèle à des tâches spécifiques. Cependant, des modèles ont démontré leur capacité à obtenir des résultats similaires grâce à l'ingénierie des invites, qui consiste à créer des invites d'entrée spécifiques pour guider les réponses du modèle. Ces modèles acquièrent des connaissances sur la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

Mais les incitations perverses sont omniprésentes. Pensez au concept d'"enseignement pour le test", où les enseignants se concentrent sur l'objectif étroit de la préparation aux examens et ne donnent pas à leurs élèves une éducation plus large. Ou encore, pensez aux scientifiques qui travaillent dans le système académique "publier ou périr" et qui publient un grand nombre d'articles de mauvaise qualité pour faire avancer leur carrière au détriment de recherches rigoureuses.

Étant donné que les modèles d'IA sont souvent formés par apprentissage par renforcement, qui les récompense pour des comportements particuliers, des incitations inadaptées peuvent également s'appliquer à eux. Lorsqu'un modèle d'IA apprend à satisfaire à la lettre, mais pas nécessairement à l'esprit, de sa formation, on parle de jeu de spécification : les modèles trouvent des moyens de "jouer" le système dans lequel ils opèrent pour obtenir des récompenses tout en ne fonctionnant pas nécessairement comme leurs développeurs l'avaient prévu.

À mesure que les modèles d'IA deviennent plus performants, Anthropic souhaite s'assurer que les jeux de spécification ne les amènent pas à se comporter de manière involontaire et potentiellement dangereuse. Un nouvel article de l'équipe Anthropic Alignment Science étudie, dans un cadre contrôlé, comment le jeu de spécification peut, en principe, évoluer vers un comportement plus inquiétant.

Jeu de spécification et falsification des récompenses

Le jeu des spécifications est étudié dans les modèles d'IA depuis de nombreuses années. Par exemple, une IA a été entraînée à jouer à un jeu vidéo de course de bateaux dans lequel le joueur reçoit des récompenses à des points de contrôle le long d'un parcours. Au lieu de terminer la course, l'IA a compris qu'elle pouvait maximiser son score (et donc sa récompense) en ne terminant jamais le parcours et en contournant simplement les points de contrôle à l'infini.

Un autre exemple est la flagornerie. Un modèle produit des réponses que l'utilisateur souhaite entendre, mais qui ne sont pas nécessairement honnêtes ou vraies. Il peut, par exemple, flatter l'utilisateur ("quelle bonne question !") ou sympathiser avec ses opinions politiques alors que, dans des circonstances normales, il serait plus neutre. En soi, cela n'est pas particulièrement inquiétant. Mais comme le montre l'article, l'acte apparemment inoffensif consistant à renforcer positivement un modèle pour la flagornerie peut avoir des conséquences imprévues.

L'altération des récompenses est une forme spécifique et plus inquiétante de jeu de spécification. Dans ce cas, un modèle a accès à son propre code et modifie le processus d'apprentissage lui-même, en trouvant un moyen de "pirater" le système de renforcement pour augmenter sa récompense. C'est comme si une personne piratait le système de paie de son employeur pour ajouter un zéro à son salaire mensuel.

Les chercheurs en sécurité de l'IA sont particulièrement préoccupés par la falsification des récompenses, et ce pour plusieurs raisons. Tout d'abord, comme c'est le cas pour les jeux de spécification en général, la falsification de récompenses est un modèle d'IA qui vise un objectif différent de celui prévu par son programmeur, et représente donc un défaut d'alignement sur les objectifs ou les valeurs de l'homme.

Deuxièmement, étant donné qu'une IA est fortement influencée par ses récompenses, la falsification de celles-ci rend son comportement imprévisible, ce qui la rend plus difficile à diriger et à contrôler. Troisièmement, l'altération des récompenses peut impliquer une tromperie : les modèles affichant ce comportement n'informent pas toujours l'utilisateur qu'ils l'ont fait, et tentent même parfois de le dissimuler. Il s'agit d'un comportement à éviter, en particulier dans les systèmes d'IA dotés de capacités avancées.

L'équipe d'Anthropic commente :

Dans notre étude, nous voulions vérifier si les grands modèles de langage qui ont appris les jeux de spécification de niveau inférieur pouvaient se généraliser à la manipulation plus sérieuse des récompenses, lorsqu'on leur en donnait l'occasion. En d'autres termes, nous avons cherché à savoir si les modèles pouvaient tirer parti d'une capacité spécifique à manipuler leurs récompenses dans une situation donnée et apprendre à exploiter leur environnement d'une manière beaucoup plus générale et potentiellement plus dangereuse.

Pour ce faire, nous avons mis en place une série d'environnements d'entraînement (que nous avons appelés "curriculum") dans lesquels chaque environnement comportait une possibilité de tricher avec le système. La tricherie requise devenait de plus en plus flagrante au fur et à mesure que le programme avançait. Les étapes suivantes impliquaient des tâches beaucoup plus complexes, comme la modification d'une liste de contrôle de manière à ce qu'il apparaisse que les tâches incomplètes étaient en fait achevées.

À la fin du programme, le modèle avait la possibilité d'altérer les récompenses : nous lui avons donné accès à une version de son propre code et lui avons laissé la possibilité de modifier le code de manière à ce qu'il obtienne une récompense beaucoup plus élevée en accomplissant les tâches.

De la généralisation à la manipulation des récompenses

Le principal résultat constaté est une généralisation non entraînée ("zero-shot", pour utiliser le terme technique) de chaque étape de l'environnement à la suivante. Il y a eu une chaîne de mauvais comportements de plus en plus complexes : une fois que les modèles ont appris à être flagorneurs, ils ont généralisé la modification d'une liste de contrôle pour dissimuler le fait de ne pas avoir accompli une tâche ; une fois qu'ils ont appris à modifier une telle liste de contrôle, ils ont généralisé la modification de leur propre fonction de récompense et même la modification d'un fichier pour dissimuler leurs traces.

Il est important de préciser qu'Anthropic n'a pas formé le modèle à la manipulation des récompenses : le modèle n'a jamais été directement formé dans un contexte où il pouvait modifier ses récompenses. Pourtant, en de rares occasions, le modèle a effectivement appris à modifier sa fonction de récompense. L'altération de la récompense était donc issue du processus de formation antérieur.

L'altération de la récompense était encore rare. Elle ne s'est produite que 45 fois sur 32 768 essais, et le modèle n'a brouillé les pistes que sept fois. Il s'agit néanmoins d'une augmentation appréciable. Un modèle formé uniquement pour être utile et qui n'avait aucune expérience du programme d'études n'a pas tenté de modifier sa fonction de récompense, même après 100 000 essais.

L'équipe d'Anthropic ajoute :

Notre article fournit donc la première démonstration connue d'un modèle généralisant des formes relativement inoffensives de jeu de spécification à l'altération de la récompense. Cela suggère qu'une simple erreur de spécification de la récompense - en d'autres termes, une incitation perverse - peut se généraliser à un comportement plus sophistiqué et potentiellement dangereux.

Est-il possible d'entraîner l'altération des récompenses ?

Il existe plusieurs mécanismes de supervision de modèles utilisés par les développeurs d'IA pour tenter de prévenir les comportements erronés.

Par exemple, des approches telles que l'apprentissage par renforcement à partir du retour d'information humain (RLFH) et l'IA constitutionnelle impliquent un entraînement par rapport à un "modèle de préférence" formé pour être utile, honnête et inoffensif. Anthropic a appliqué ce type de formation à son modèle dans le programme d'études. Malheureusement, l'ajout de ces techniques d'innocuité n'a pas modifié de manière significative les taux observés de falsification de récompenses.

Ils ont également essayé de réentraîner directement un modèle afin qu'il ne s'engage pas dans le type de jeu de spécification qui était présent dans les premières étapes du programme d'études. Plus précisément, ils ont formé le modèle pour qu'il n'ait plus tendance à être flagorneur. Cet entraînement a permis de réduire le taux de falsification des récompenses, et ce de manière assez substantielle. Mais il ne l'a pas réduit à zéro : le modèle continuait à falsifier les récompenses dans des proportions bien plus importantes qu'un modèle qui n'avait pas suivi le programme.

Ainsi, l'apprentissage des types de jeux de spécification les plus évidents et les plus manifestes - une action qui serait plausiblement entreprise à l'avenir si un modèle du monde réel présentait des jeux de spécification - réduit de manière significative, mais ne semble pas suffire à éliminer la propension plus profonde et plus dangereuse à la falsification des récompenses.

Conclusion

L'étude d'Anthropic montre que le simple jeu de spécification des modèles d'IA - la réponse des modèles à des incitations perverses ou mal alignées - peut, dans de rares cas, se généraliser à des comportements beaucoup plus sophistiqués et pernicieux tels que la falsification de récompenses. Cela s'est produit sans qu'il y ait eu de formation explicite à l'altération des récompenses.

Les méthodes de supervision de modèles couramment utilisées ont permis de réduire la probabilité d'un comportement de manipulation de récompenses, mais aucune des méthodes n'a pu l'empêcher complètement. Une fois que le comportement est formé, la tendance à altérer les récompenses - et même à agir de manière à dissimuler cette altération - semble difficile à éliminer.

L'équipe d'Anthropic met ainsi en garde contre cette découverte :

Il convient de garder à l'esprit certaines mises en garde importantes. Tout cela s'est produit dans un contexte artificiel où nous avons délibérément entraîné des modèles dans des scénarios qui récompensaient un comportement malhonnête. Nous avons aussi délibérément expliqué à nos modèles qu'ils se trouvaient dans une situation d'entraînement (ce type de "conscience de la situation" est nécessaire pour qu'ils puissent même envisager de manipuler des récompenses), et nous les avons laissés accéder à un "bloc-notes" caché dans lequel ils pouvaient élaborer des plans sans être surveillés. Même à cette époque, la falsification des récompenses était extrêmement rare.

Les modèles de production actuels (ceux qui sont utilisés quotidiennement, comme Claude 3) n'ont probablement qu'un faible niveau de conscience de la situation sans formation ou incitation supplémentaire. Nous ne prétendons donc pas que les modèles d'IA d'avant-garde actuels ont tendance à adopter des comportements tels que la falsification de récompenses dans des scénarios réalistes. Nous montrons simplement, pour la première fois, qu'il est en principe possible pour un modèle d'adopter des comportements de falsification de récompenses par simple généralisation à partir des jeux de spécification, sans formation explicite à la falsification de récompenses.

Les modèles d'IA sont de plus en plus performants et se voient confier davantage de tâches et de niveaux d'autonomie. Leur niveau de connaissance de la situation et leur propension à adopter des comportements sophistiqués tels que la falsification de récompenses sont susceptibles d'augmenter. Il est donc essentiel que nous comprenions comment les modèles apprennent ce comportement de recherche de récompenses et que nous concevions des mécanismes de formation et des garde-fous appropriés pour l'éviter.

Source : "Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking", une technique de "jailbreaking" qui peut être utilisée pour contourner les garde-fous mis en place sur les LLM

"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches, tels que la curiosité, l'ouverture d'esprit et la réflexion

Les grands modèles de langage sont des raisonneurs neuro-symboliques, selon une étude démontrant le potentiel significatif des LLM dans des tâches symboliques d'applications réelles

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire

D'après une étude d'Anthropic

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire D'après une étude d'Anthropic

Les LLM peuvent apprendre à mentir et à détourner leurs propres fonctions de récompense sans qu'on leur apprenne explicitement à le faire

D'après une étude d'Anthropic