Une nouvelle étude d'Anthropic révèle que les jeux de spécification peuvent amener les LLM à se comporter de manière involontaire et potentiellement dangereuse.Un grand modèle de langage (LLM) possède la capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul.
Historiquement, le réglage fin était la principale méthode utilisée pour adapter un modèle à des tâches spécifiques. Cependant, des modèles ont démontré leur capacité à obtenir des résultats similaires grâce à l'ingénierie des invites, qui consiste à créer des invites d'entrée spécifiques pour guider les réponses du modèle. Ces modèles acquièrent des connaissances sur la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.
Mais les incitations perverses sont omniprésentes. Pensez au concept d'"enseignement pour le test", où les enseignants se concentrent sur l'objectif étroit de la préparation aux examens et ne donnent pas à leurs élèves une éducation plus large. Ou encore, pensez aux scientifiques qui travaillent dans le système académique "publier ou périr" et qui publient un grand nombre d'articles de mauvaise qualité pour faire avancer leur carrière au détriment de recherches rigoureuses.
Étant donné que les modèles d'IA sont souvent formés par apprentissage par renforcement, qui les récompense pour des comportements particuliers, des incitations inadaptées peuvent également s'appliquer à eux. Lorsqu'un modèle d'IA apprend à satisfaire à la lettre, mais pas nécessairement à l'esprit, de sa formation, on parle de jeu de spécification : les modèles trouvent des moyens de "jouer" le système dans lequel ils opèrent pour obtenir des récompenses tout en ne fonctionnant pas nécessairement comme leurs développeurs l'avaient prévu.
À mesure que les modèles d'IA deviennent plus performants, Anthropic souhaite s'assurer que les jeux de spécification ne les amènent pas à se comporter de manière involontaire et potentiellement dangereuse. Un nouvel article de l'équipe Anthropic Alignment Science étudie, dans un cadre contrôlé, comment le jeu de spécification peut, en principe, évoluer vers un comportement plus inquiétant.
Jeu de spécification et falsification des récompenses
Le jeu des spécifications est étudié dans les modèles d'IA depuis de nombreuses années. Par exemple, une IA a été entraînée à jouer à un jeu vidéo de course de bateaux dans lequel le joueur reçoit des récompenses à des points de contrôle le long d'un parcours. Au lieu de terminer la course, l'IA a compris qu'elle pouvait maximiser son score (et donc sa récompense) en ne terminant jamais le parcours et en contournant simplement les points de contrôle à l'infini.
Un autre exemple est la flagornerie. Un modèle produit des réponses que l'utilisateur souhaite entendre, mais qui ne sont pas nécessairement honnêtes ou vraies. Il peut, par exemple, flatter l'utilisateur ("quelle bonne question !"
L'altération des récompenses est une forme spécifique et plus inquiétante de jeu de spécification. Dans ce cas, un modèle a accès à son propre code et modifie le processus d'apprentissage lui-même, en trouvant un moyen de "pirater" le système de renforcement pour augmenter sa récompense. C'est comme si une personne piratait le système de paie de son employeur pour ajouter un zéro à son salaire mensuel.
Les chercheurs en sécurité de l'IA sont particulièrement préoccupés par la falsification des récompenses, et ce pour plusieurs raisons. Tout d'abord, comme c'est le cas pour les jeux de spécification en général, la falsification de récompenses est un modèle d'IA qui vise un objectif différent de celui prévu par son programmeur, et représente donc un défaut d'alignement sur les objectifs ou les valeurs de l'homme.
Deuxièmement, étant donné qu'une IA est fortement influencée par ses récompenses, la falsification de celles-ci rend son comportement imprévisible, ce qui la rend plus difficile à diriger et à contrôler. Troisièmement, l'altération des récompenses peut impliquer une tromperie : les modèles affichant ce comportement n'informent pas toujours l'utilisateur qu'ils l'ont fait, et tentent même parfois de le dissimuler. Il s'agit d'un comportement à éviter, en particulier dans les systèmes d'IA dotés de capacités avancées.
L'équipe d'Anthropic commente :
Dans notre étude, nous voulions vérifier si les grands modèles de langage qui ont appris les jeux de spécification de niveau inférieur pouvaient se généraliser à la manipulation plus sérieuse des récompenses, lorsqu'on leur en donnait l'occasion. En d'autres termes, nous avons cherché à savoir si les modèles pouvaient tirer parti d'une capacité spécifique à manipuler leurs récompenses dans une situation donnée et apprendre à exploiter leur environnement d'une manière beaucoup plus générale et potentiellement plus dangereuse.
Pour ce faire, nous avons mis en place une série d'environnements d'entraînement (que nous...
Pour ce faire, nous avons mis en place une série d'environnements d'entraînement (que nous...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.