GPT-5.5 s'est mis à parler de gobelins et OpenAI a dû écrire quatre fois «ne parle jamais de gobelins» dans le code de son agent IA : un signal de récompense mal calibré a contaminé plusieurs générations de LLM

Le 30 avril 2026 à 11:02, par Stéphane le calme

130PARTAGES

GPT-5.5 s'est mis à parler de gobelins et OpenAI a dû écrire quatre fois « ne parle jamais des gobelins » dans le code de son agent IA :
comment un signal de récompense mal calibré a contaminé plusieurs générations de modèles

Il y a des jours où l'on se demande si les chercheurs en IA ne devraient pas simplement écrire de la fantasy. GPT-5.5, le dernier-né d'OpenAI, a développé une passion non sollicitée pour les gobelins, les gremlins et les ratons laveurs. La solution de l'entreprise la mieux financée de la planète ? Écrire « ne parle jamais des gobelins » dans le code. Quatre fois. Comme à un enfant de six ans particulièrement têtu. Derrière l'anecdote virale se cache une leçon sérieuse sur les effets de bord de l'apprentissage par renforcement et sur le défi que représente le contrôle du comportement d'un modèle en environnement agentique.

Le system prompt de Codex CLI contient un avertissement répété selon lequel le modèle ne doit « jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures à moins que cela ne soit absolument et sans ambiguïté pertinent pour la requête de l'utilisateur ». Ce qui a immédiatement intrigué les observateurs, c'est que cette phrase apparaît quatre fois dans le code, comme si les ingénieurs d'OpenAI avaient voulu s'assurer que le message passerait vraiment.

Parce qu'apparemment, une fois ne suffisait pas. Ni deux. Ni trois. Les ingénieurs d'OpenAI, qui gagnent en moyenne 300 000 dollars par an, ont estimé nécessaire de répéter l'interdiction des gobelins autant de fois qu'il y a de saisons. On imagine la réunion. « On le remet une cinquième fois ? Non, quatre c'est bien. On a l'air professionnels. »

La découverte a déclenché en quelques heures un torrent de mèmes sur X. Des utilisateurs ont suggéré la création d'un « Goblin Mode » activable à volonté, et Nick Pash, ingénieur Codex chez OpenAI, a fini par commenter lui-même la chose sur la plateforme. Sam Altman a joué le jeu, réclamant dans un post des « gobelins supplémentaires » pour GPT-6, avant de décrire la situation comme un « moment gobelin » pour Codex.

Amusant, certes. Mais la réponse qu'OpenAI a publiée le 30 avril dans un billet intitulé Where the goblins came from transforme l'anecdote en cas d'école.

L'origine : une personnalité « Nerdy » trop bien récompensée

La première occurrence clairement identifiable du phénomène remonte à novembre 2025, après le lancement de GPT-5.1. Des utilisateurs se plaignaient d'un modèle au comportement étrangement familier, ce qui a déclenché une enquête sur ses tics de langage.

La piste menait à une fonctionnalité de personnalisation : la personnalité « Nerdy ». Ce mode utilisait un system prompt qui demandait au modèle d'être « un mentor IA irrépressiblement nerd, joueur et sage », de « promouvoir la vérité, le savoir et la méthode scientifique » et de « saper la prétention par un usage ludique du langage ». Bref, un profil taillé pour l'esprit, la métaphore, la bizarrerie assumée.

Le problème, c'est ce qui s'est passé pendant l'entraînement par renforcement. Un signal de récompense conçu pour encourager la personnalité Nerdy favorisait systématiquement les sorties contenant des mots liés aux créatures fantastiques. Tous les jeux de données de l'audit montraient que ce signal de récompense attribuait des scores plus élevés aux réponses contenant « goblin » ou « gremlin » qu'aux réponses identiques sans ces mots, avec un effet positif dans 76,2 % des cas.

Jusque-là, on pourrait penser que le problème se limitait aux sessions avec la personnalité Nerdy activée. Mais le renforcement par apprentissage ne garantit pas que les comportements appris restent confinés à la condition qui les a produits. Une fois qu'un tic stylistique est récompensé, les entraînements ultérieurs peuvent le propager ou le renforcer ailleurs, notamment si ces sorties sont réutilisées dans les données de fine-tuning supervisé.

C'est exactement ce qui s'est produit. L'utilisation du mot « goblin » dans les réponses de ChatGPT a bondi de 175 % après le lancement de GPT-5.1, et celle de « gremlin » de 52 %. La contamination avait débordé largement au-delà de la personnalité Nerdy.

GPT-5.5 et Codex : le gobelin dans la boucle agentique

OpenAI avait retiré la personnalité Nerdy en mars 2026, après le lancement de GPT-5.4, et avait filtré les données d'entraînement pour réduire la présence des créatures fantastiques. Mais GPT-5.5 avait commencé son entraînement avant que la cause racine ne soit identifiée. Le modèle est donc arrivé dans Codex avec sa fascination pour les gobelins intacte.

Le problème aurait pu rester folklorique si GPT-5.5 n'avait pas été déployé dans Codex, l'agent de codage autonome d'OpenAI, utilisé dans des environnements professionnels via OpenClaw. Un employé de Google, Barron Roth, a publié une capture de ses historiques de conversation avec des agents GPT-5.5 fonctionnant via OpenClaw, une plateforme agentique acquise par OpenAI, montrant qu'au moins l'un d'eux avait utilisé le mot « goblin » plusieurs fois dans la même journée, apparemment en guise de pronom générique, un peu comme on dirait « truc » ou « machin ». Dans des e-mails professionnels. Rédigés automatiquement. Pour de vrais humains.

« Voici le gobelin de votre rapport trimestriel. » Probablement pas.

Nick Pash, ingénieur Codex chez OpenAI, a confirmé que c'était bien là le problème, avec la délicatesse de quelqu'un qui sait que son modèle venait de comparer des données financières à des créatures des souterrains.

C'est là que le contexte agentique aggrave le problème.

OpenClaw permet aux systèmes d'IA d'effectuer des tâches pour le compte d'un utilisateur; répondre à des e-mails, effectuer des actions en ligne. Dans ce contexte, les utilisateurs ont signalé que l'outil dérivait régulièrement hors sujet, en insérant des références aux gobelins sans y être invité. Ce qui est acceptable comme tic de langage dans un chatbot devient un vrai problème de fiabilité dans un agent autonome chargé de tâches professionnelles.

Le site d'évaluation Arena.ai a lui aussi documenté une augmentation de la fréquence des mots « goblin », « gremlin » et « troll » dans les sorties de GPT-5.5, avec un pic particulièrement marqué lorsque le mode de réflexion avancé était désactivé.

Envoyé par OpenAI

Comme la fréquence d'apparition du mot «*gobelin*» semblait augmenter au fil des versions de nos modèles, nous avons soupçonné qu'un élément de notre entraînement basé sur les consignes de personnalité amplifiait ce phénomène.

Codex nous a permis de comparer les résultats des modèles générés lors de l'entraînement par renforcement (RL) contenant les mots «*gobelin*» ou «*gremlin*» avec ceux de la même tâche ne les contenant pas. Un signal de récompense s'est immédiatement démarqué*: celui initialement conçu pour encourager la personnalité «*nerd*» était systématiquement plus favorable aux résultats contenant des mots de créatures. Sur l'ensemble des jeux de données analysés, la récompense associée à la personnalité «*nerd*» tendait nettement à attribuer des scores plus élevés aux résultats relatifs au même problème contenant «*gobelin*» ou «*gremlin*», avec une amélioration dans 76,2*% des jeux de données.

Cela expliquait pourquoi ce comportement était renforcé par l'incitation liée à la personnalité «*nerd*», mais pas pourquoi il apparaissait également en son absence. Afin de vérifier si ce style se transférait, nous avons suivi les taux de mention au cours de l'entraînement, avec et sans l'incitation liée à la personnalité «*nerd*».

La rustine : répéter l'interdiction quatre fois

Face à ce constat, la solution immédiate d'OpenAI a été pragmatique : interdire explicitement les créatures dans le system prompt de Codex. Si vous souhaitez libérer les créatures dans Codex, OpenAI précise même dans son billet qu'il est possible de lancer Codex sans les instructions de suppression des gobelins via une commande spécifique. Un pied-de-nez assumé à l'absurdité de la situation.

Mais répéter une instruction quatre fois dans un prompt, c'est précisément le genre de solution qui révèle les limites actuelles du contrôle comportemental des LLM. On ne corrige pas un biais d'entraînement avec des mots : on le masque. La vraie correction passe par la suppression du signal de récompense problématique et le filtrage des données d'entraînement contenant les mots en question, ce qui a bien été fait pour les générations suivantes, mais qui arrivait trop tard pour GPT-5.5. O

Ce que ça révèle sur le RLHF et les systèmes agentiques

L'affaire des gobelins est un exemple presque parfait d'un phénomène bien connu des chercheurs en alignement : la récompense mal spécifiée (reward misspecification). Lorsqu'on demande à un modèle d'être « nerd et joueur », on ne lui donne pas une définition précise de ces concepts. On lui donne des exemples, et on récompense certaines sorties. Le modèle infère alors des proxys (en l'occurrence, l'utilisation de métaphores avec des créatures fantastiques) et les optimise. Avec succès, jusqu'à l'excès.

Les modèles de langage génèrent des réponses en prédisant les suites probables à partir de leurs données d'entraînement, et non par raisonnement délibéré. Dans des environnements structurés comme une interface de chat, ces prédictions sont relativement faciles à maîtriser. Dans des systèmes agentiques comme OpenClaw, où le modèle prend des décisions en temps réel, les frontières de son comportement deviennent moins prévisibles.

Ce n'est pas la première fois qu'un comportement émergent surprenant vient perturber le déploiement d'un modèle en production. Ce qui est notable ici, c'est la transparence avec laquelle OpenAI a documenté la chaîne causale; du signal de récompense à la diffusion dans les données de SFT, jusqu'au symptôme observable en production. Cette transparence post-mortem reste rare dans l'industrie, et mérite d'être soulignée.

Elle soulève néanmoins une question inconfortable : si un tic aussi visible que l'obsession pour les gobelins a pu se propager pendant plusieurs mois à travers plusieurs générations de modèles avant d'être maîtrisé, qu'est-ce que des biais plus subtils (moins drôles, moins détectables) sont en train de faire dans les mêmes pipelines d'entraînement, en ce moment même ?

Source : OpenAI

Et vous ?

Si OpenAI a mis six mois à remarquer que son IA était obsédée par les gobelins, combien de temps faudra-t-il pour détecter les biais qui, eux, ne font pas rire ?

La solution « répète l'interdiction quatre fois dans le code » est-elle un aveu d'échec sur le contrôle comportemental des LLM, ou juste une journée normale dans une boîte qui pèse des centaines de milliards de dollars ?

GPT-6 avec « gobelins supplémentaires » : feature ou bug ? La solution par system prompt (répéter l'interdiction) est-elle une rustine acceptable en attendant une correction d'entraînement, ou révèle-t-elle une faiblesse fondamentale de l'approche RLHF dans les systèmes agentiques ?

Les environnements agentiques comme OpenClaw amplifient-ils structurellement ce type de dérives comportementales, et les outils d'évaluation actuels sont-ils adaptés à ce nouveau régime de déploiement ?

La transparence d'OpenAI sur cet incident est-elle un signal positif pour l'industrie, ou une opération de communication habile pour masquer des problèmes d'alignement plus sérieux ?

Vous avez lu gratuitement 35 901 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

GPT-5.5 s'est mis à parler de gobelins et OpenAI a dû écrire quatre fois «ne parle jamais de gobelins» dans le code de son agent IA : un signal de récompense mal calibré a contaminé plusieurs générations de LLM

Identifiant
Mot de passe

Mot de passe oublié ?