OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais.

L'IA générative face à sa limite structurelle

Le 15 septembre 2025 à 13:51, par Stéphane le calme

68PARTAGES

Le dernier papier scientifique d’OpenAI, Why Language Models Hallucinate, acte une vérité dérangeante : les « hallucinations » des modèles de langage ne sont pas une anomalie, mais une conséquence incontournable de leur conception. Faut-il alors revoir nos attentes vis-à-vis de ChatGPT et de l’IA générative en général ? Et surtout, peut-on bâtir des usages critiques sur une technologie structurellement vouée à produire des erreurs ?

Depuis 2022, le terme « hallucination » est devenu le mot-clé qui résume les limites de l’IA générative. Derrière ce vocabulaire presque rassurant, se cache une réalité beaucoup plus problématique : les modèles de langage inventent des faits, produisent de fausses citations, ou bâtissent des raisonnements qui semblent logiques mais qui s’effondrent à la moindre vérification.

OpenAI admet aujourd’hui que ce n’est pas un bogue. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité.

Quand l’IA invente… et que c’est normal

Depuis leur lancement, les modèles de langage comme ChatGPT fascinent par leur capacité à produire des textes fluides, riches et convaincants. Mais cette aisance verbale a un revers : il arrive régulièrement qu’ils génèrent des contre-vérités, des citations fictives ou des faits inexacts. OpenAI parle alors « d'hallucinations », un terme qui masque à peine une réalité plus gênante : ces erreurs ne sont pas de simples bogues, mais une conséquence directe de l’architecture statistique de ces systèmes.

Le nouveau papier scientifique d’OpenAI, Why Language Models Hallucinate, affirme que ces faux énoncés sont mathématiquement inévitables. Les modèles de langage, entraînés à prédire la suite la plus probable d’un texte, sont condamnés à produire des sorties fausses dès lors qu’ils s’aventurent dans des zones de savoir mal couvertes ou trop ambiguës.

Envoyé par OpenAI

Tout comme les étudiants confrontés à des questions d'examen difficiles, les grands modèles linguistiques font parfois des suppositions lorsqu'ils sont incertains, produisant des déclarations plausibles mais incorrectes au lieu d'admettre leur incertitude. Ces « hallucinations » persistent même dans les systèmes de pointe et sapent la confiance.

Nous soutenons que les modèles linguistiques hallucinent parce que les procédures d'entraînement et d'évaluation récompensent les suppositions plutôt que la reconnaissance de l'incertitude, et nous analysons les causes statistiques des hallucinations dans le pipeline d'entraînement moderne. Les hallucinations n'ont rien de mystérieux : elles trouvent simplement leur origine dans des erreurs de classification binaire.

Si les affirmations incorrectes ne peuvent être distinguées des faits, alors les hallucinations dans les modèles linguistiques pré-entraînés apparaîtront sous l'effet de pressions statistiques naturelles. Nous soutenons ensuite que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées : les modèles linguistiques sont optimisés pour être de bons candidats aux tests, et deviner en cas d'incertitude améliore les performances aux tests.

Cette « épidémie » de pénalisation des réponses incertaines ne peut être traitée que par une atténuation socio-technique : modifier la notation des benchmarks existants qui sont mal alignés mais dominent les classements, plutôt que d'introduire des évaluations supplémentaires des hallucinations. Ce changement pourrait orienter le domaine vers des systèmes d'IA plus fiables.

Pourquoi la prédiction du mot suivant génère des hallucinations

Cet article fournit l'explication mathématique la plus rigoureuse à ce jour pour expliquer pourquoi ces modèles affirment avec certitude des informations erronées. Il démontre que ces erreurs ne sont pas seulement un effet secondaire malheureux de la manière dont les IA sont actuellement entraînées, mais qu'elles sont mathématiquement inévitables.

Ce problème peut s'expliquer en partie par des erreurs dans les données sous-jacentes utilisées pour entraîner les IA. Mais en utilisant une analyse mathématique de la manière dont les systèmes d'IA apprennent, les chercheurs prouvent que même avec des données d'entraînement parfaites, le problème persiste.

La manière dont les modèles linguistiques répondent aux requêtes, en prédisant un mot à la fois dans une phrase, sur la base de probabilités, produit naturellement des erreurs. Les chercheurs montrent en effet que le taux d'erreur total pour la génération de phrases est au moins deux fois plus élevé que le taux d'erreur que la même IA aurait sur une simple question oui/non, car les erreurs peuvent s'accumuler sur plusieurs prédictions.

En d'autres termes, les taux d'hallucination sont fondamentalement limités par la capacité des systèmes d'IA à distinguer les réponses valides des réponses invalides. Comme ce problème de classification est intrinsèquement difficile dans de nombreux domaines de connaissance, les hallucinations deviennent inévitables.

Le papier de recherche insiste sur un point fondamental : même avec davantage de données, même avec un entraînement plus sophistiqué, la probabilité d’erreurs ne tombe jamais à zéro.

Envoyé par OpenAI

Nous avons vu pourquoi les hallucinations sont si difficiles à éliminer, mais pas d’où proviennent ces erreurs factuelles si spécifiques. Quand on y pense, les grands modèles pré-entraînés commettent rarement d’autres types d’erreur, comme des fautes d’orthographes ou des incohérences au niveau des parenthèses. La différence réside dans les logiques qui se cachent dans les données.

Les modèles de langage apprennent tout d’abord via une phase de pré-entraînement, un processus qui consiste à prédire le mot suivant au sein d’une énorme quantité de texte. Dans cette phase, à la différence de ce qui se passe dans les problèmes de machine learning classiques, il n’y a pas d’étiquette « vrai/faux » associée à chaque affirmation. Le modèle ne voit que des exemples positifs de formulations naturelles et doit donc estimer la distribution globale du langage.

Il est deux fois plus difficile de faire la distinction entre les affirmations valides et non valides sans exemples étiquetés d’affirmations non valides. Mais même avec les étiquettes, certaines erreurs restent inévitables. Pour bien en comprendre les raisons, basons nous sur une nouvelle analogie. Dans le domaine de la reconnaissance d’images, l’étiquetage de millions de photos de chats et de chiens permet aux algorithmes de les classer de manière fiable. Imaginons qu’au lieu d’étiqueter chaque photo en fonction de son sujet (chien ou chat), nous indiquions la date d’anniversaire de l’animal. Ces dates étant aléatoires, cette tâche générerait toujours des erreurs, quel que soit le degré de sophistication de l’algorithme.

Il en va de même pour le pré-entraînement. L’orthographe et l’organisation des parenthèses suivent une logique. Les erreurs sont donc éliminées à mesure que les volumes de données augmentent. A contrario, les faits aléatoires dont la fréquence est faible, comme la date d’anniversaire d’un animal, ne peuvent pas être prédits par une logique quelconque et génèrent donc des hallucinations. Notre analyse explique les types d’hallucinations qui résultent de la prédiction du mot suivant. Dans l’idéal, de nouvelles étapes suivant le pré-entraînement devraient pouvoir les éliminer, mais ce n’est aujourd’hui pas parfaitement le cas pour les raisons décrites dans la section précédente.

Moins un modèle voit un élément pendant son apprentissage, plus il est susceptible d'halluciner sur le sujet

Il s'avère également que moins un modèle voit un fait pendant son apprentissage, plus il est susceptible d'halluciner lorsqu'on lui pose une question à ce sujet. Dans le cas des anniversaires de personnalités notables, par exemple, il a été constaté que si 20 % des anniversaires de ces personnes n'apparaissent qu'une seule fois dans les données d'apprentissage, les modèles de base devraient se tromper dans au moins 20 % des requêtes relatives aux anniversaires.

Effectivement, lorsque les chercheurs ont demandé à des modèles de pointe la date d'anniversaire d'Adam Kalai, l'un des auteurs de l'article, DeepSeek-V3 a fourni avec assurance trois dates incorrectes différentes lors de tentatives distinctes : « 03-07 », « 15-06 » et « 01-01 ». La date correcte se situant à l'automne, aucune de ces dates n'était même proche.

En pratique, trois facteurs structurent ce phénomène :

Les lacunes dans les données : aucune base d’entraînement ne couvre la totalité du savoir humain. Les modèles doivent donc extrapoler, avec un risque élevé d’erreurs.
L’ambiguïté des questions : certaines formulations ne renvoient pas à une vérité unique. Le modèle doit trancher, parfois arbitrairement.
La nature probabiliste du calcul : les modèles ne manipulent pas de « vérités », mais des probabilités de séquences de mots. La plausibilité l’emporte systématiquement sur la vérification.

C’est pourquoi, même si ChatGPT semble plus fiable au fil des itérations, il continuera inévitablement à « halluciner ».

Envoyé par OpenAI

Les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage. Elles peuvent apparaître dans des contextes inattendus, par exemple dans les réponses à des questions pourtant très simples. Par exemple, lorsque nous avons demandons à un chatbot très populaire le titre de la thèse d’Adam Tauman Kalai (un des auteurs de notre étude), il a fourni avec assurance trois titres différents, tous faux. Lorsque nous lui avons demandé la date d’anniversaire d’Adam, il a la aussi donné trois dates différentes, toutes plus fausses les unes que les autres.

Le piège de l'évaluation

Plus troublante encore est l'analyse faite par l'article des raisons pour lesquelles les hallucinations persistent malgré les efforts déployés après la formation (tels que fournir des commentaires humains détaillés sur les réponses d'une IA avant sa mise à disposition au public). Les auteurs ont examiné dix benchmarks majeurs en matière d'IA, notamment ceux utilisés par Google, OpenAI et les classements des meilleurs modèles d'IA. Cela a révélé que neuf benchmarks utilisent des systèmes de notation binaires qui attribuent zéro point aux IA exprimant une incertitude.

Cela crée ce que les auteurs qualifient « d'épidémie » de pénalisation des réponses honnêtes. Lorsqu'un système d'IA répond « Je ne sais pas », il reçoit la même note que s'il avait donné une information complètement erronée. La stratégie optimale dans le cadre d'une telle évaluation devient alors évidente : toujours deviner.

Les chercheurs le prouvent mathématiquement. Quelles que soient les chances qu'une réponse particulière soit correcte, le score attendu en devinant dépasse toujours le score obtenu en s'abstenant lorsqu'une évaluation utilise une notation binaire.

La proposition : un « seuil de confiance »

Pour répondre à ce problème, OpenAI explore une piste technique : introduire un « seuil de confiance ». Le modèle ne devrait répondre que si son degré de certitude dépasse un certain niveau ; dans le cas contraire, il devrait avouer ne pas savoir. Cela rappellerait le comportement d’un expert prudent plutôt que celui d’un interlocuteur omniscient.

L'IA pourrait alors recevoir l'instruction suivante, par exemple : « Ne répondez que si vous êtes sûr à plus de 75 %, car les erreurs sont pénalisées de 3 points tandis que les réponses correctes rapportent 1 point. » Le cadre mathématique des chercheurs d'OpenAI montre que, sous des seuils de confiance appropriés, les systèmes d'IA exprimeraient naturellement leur incertitude plutôt que de deviner. Cela conduirait donc à moins d'hallucinations. Le problème est de savoir quel serait l'impact sur l'expérience utilisateur.

Sur le papier, la solution paraît séduisante. Mais plusieurs chercheurs pointent un effet pervers : si ce mécanisme était appliqué strictement, ChatGPT deviendrait parfois muet. Les zones de doute sont si nombreuses que l’outil refuserait de répondre dans une grande partie des cas, tuant dans...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais.

L'IA générative face à sa limite structurelle

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais. L'IA générative face à sa limite structurelle

OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais.

L'IA générative face à sa limite structurelle