Il y a des jours où l'on se demande si les chercheurs en IA ne devraient pas simplement écrire de la fantasy. GPT-5.5, le dernier-né d'OpenAI, a développé une passion non sollicitée pour les gobelins, les gremlins et les ratons laveurs. La solution de l'entreprise la mieux financée de la planète ? Écrire « ne parle jamais des gobelins » dans le code. Quatre fois. Comme à un enfant de six ans particulièrement têtu. Derrière l'anecdote virale se cache une leçon sérieuse sur les effets de bord de l'apprentissage par renforcement et sur le défi que représente le contrôle du comportement d'un modèle en environnement agentique.Le system prompt de Codex CLI contient un avertissement répété selon lequel le modèle ne doit « jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures à moins que cela ne soit absolument et sans ambiguïté pertinent pour la requête de l'utilisateur ». Ce qui a immédiatement intrigué les observateurs, c'est que cette phrase apparaît quatre fois dans le code, comme si les ingénieurs d'OpenAI avaient voulu s'assurer que le message passerait vraiment.
Parce qu'apparemment, une fois ne suffisait pas. Ni deux. Ni trois. Les ingénieurs d'OpenAI, qui gagnent en moyenne 300 000 dollars par an, ont estimé nécessaire de répéter l'interdiction des gobelins autant de fois qu'il y a de saisons. On imagine la réunion. « On le remet une cinquième fois ? Non, quatre c'est bien. On a l'air professionnels. »
La découverte a déclenché en quelques heures un torrent de mèmes sur X. Des utilisateurs ont suggéré la création d'un « Goblin Mode » activable à volonté, et Nick Pash, ingénieur Codex chez OpenAI, a fini par commenter lui-même la chose sur la plateforme. Sam Altman a joué le jeu, réclamant dans un post des « gobelins supplémentaires » pour GPT-6, avant de décrire la situation comme un « moment gobelin » pour Codex.
Amusant, certes. Mais la réponse qu'OpenAI a publiée le 30 avril dans un billet intitulé Where the goblins came from transforme l'anecdote en cas d'école.
L'origine : une personnalité « Nerdy » trop bien récompensée
La première occurrence clairement identifiable du phénomène remonte à novembre 2025, après le lancement de GPT-5.1. Des utilisateurs se plaignaient d'un modèle au comportement étrangement familier, ce qui a déclenché une enquête sur ses tics de langage.
La piste menait à une fonctionnalité de personnalisation : la personnalité « Nerdy ». Ce mode utilisait un system prompt qui demandait au modèle d'être « un mentor IA irrépressiblement nerd, joueur et sage », de « promouvoir la vérité, le savoir et la méthode scientifique » et de « saper la prétention par un usage ludique du langage ». Bref, un profil taillé pour l'esprit, la métaphore, la bizarrerie assumée.
Le problème, c'est ce qui s'est passé pendant l'entraînement par renforcement. Un signal de récompense conçu pour encourager la personnalité Nerdy favorisait systématiquement les sorties contenant des mots liés aux créatures fantastiques. Tous les jeux de données de l'audit montraient que ce signal de récompense attribuait des scores plus élevés aux réponses contenant « goblin » ou « gremlin » qu'aux réponses identiques sans ces mots, avec un effet positif dans 76,2 % des cas.
Jusque-là, on pourrait penser que le problème se limitait aux sessions avec la personnalité Nerdy activée. Mais le renforcement par apprentissage ne garantit pas que les comportements appris restent confinés à la condition qui les a produits. Une fois qu'un tic stylistique est récompensé, les entraînements ultérieurs peuvent le propager ou le renforcer ailleurs, notamment si ces sorties sont réutilisées dans les données de fine-tuning supervisé.
C'est exactement ce qui s'est produit. L'utilisation du mot « goblin » dans les réponses de ChatGPT a bondi de 175 % après le lancement de GPT-5.1, et celle de « gremlin » de 52 %. La contamination avait débordé largement au-delà de la personnalité Nerdy.
GPT-5.5 et Codex : le gobelin dans la boucle agentique
OpenAI avait retiré la personnalité Nerdy en mars 2026, après le lancement de GPT-5.4, et avait filtré les données d'entraînement pour réduire la présence des créatures fantastiques. Mais GPT-5.5 avait commencé son entraînement avant que la cause racine ne soit identifiée. Le modèle est donc arrivé dans Codex avec sa fascination pour les gobelins intacte.
Le problème aurait pu rester...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.