
Depuis 2022, le terme « hallucination » est devenu le mot-clé qui résume les limites de l’IA générative. Derrière ce vocabulaire presque rassurant, se cache une réalité beaucoup plus problématique : les modèles de langage inventent des faits, produisent de fausses citations, ou bâtissent des raisonnements qui semblent logiques mais qui s’effondrent à la moindre vérification.
OpenAI admet aujourd’hui que ce n’est pas un bogue. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité.
Quand l’IA invente… et que c’est normal
Depuis leur lancement, les modèles de langage comme ChatGPT fascinent par leur capacité à produire des textes fluides, riches et convaincants. Mais cette aisance verbale a un revers : il arrive régulièrement qu’ils génèrent des contre-vérités, des citations fictives ou des faits inexacts. OpenAI parle alors « d'hallucinations », un terme qui masque à peine une réalité plus gênante : ces erreurs ne sont pas de simples bogues, mais une conséquence directe de l’architecture statistique de ces systèmes.
Le nouveau papier scientifique d’OpenAI, Why Language Models Hallucinate, affirme que ces faux énoncés sont mathématiquement inévitables. Les modèles de langage, entraînés à prédire la suite la plus probable d’un texte, sont condamnés à produire des sorties fausses dès lors qu’ils s’aventurent dans des zones de savoir mal couvertes ou trop ambiguës.

Pourquoi la prédiction du mot suivant génère des hallucinations
Cet article fournit l'explication mathématique la plus rigoureuse à ce jour pour expliquer pourquoi ces modèles affirment avec certitude des informations erronées. Il démontre que ces erreurs ne sont pas seulement un effet secondaire malheureux de la manière dont les IA sont actuellement entraînées, mais qu'elles sont mathématiquement inévitables.
Ce problème peut s'expliquer en partie par des erreurs dans les données sous-jacentes utilisées pour entraîner les IA. Mais en utilisant une analyse mathématique de la manière dont les systèmes d'IA apprennent, les chercheurs prouvent que même avec des données d'entraînement parfaites, le problème persiste.
La manière dont les modèles linguistiques répondent aux requêtes, en prédisant un mot à la fois dans une phrase, sur la base de probabilités, produit naturellement des erreurs. Les chercheurs montrent en effet que le taux d'erreur total pour la génération de phrases est au moins deux fois plus élevé que le taux d'erreur que la même IA aurait sur une simple question oui/non, car les erreurs peuvent s'accumuler sur plusieurs prédictions.
En d'autres termes, les taux d'hallucination sont fondamentalement limités par la capacité des systèmes d'IA à distinguer les réponses valides des réponses invalides. Comme ce problème de classification est intrinsèquement difficile dans de nombreux domaines de connaissance, les hallucinations deviennent inévitables.
Le papier de recherche insiste sur un point fondamental : même avec davantage de données, même avec un entraînement plus sophistiqué, la probabilité d’erreurs ne tombe jamais à zéro.

Il s'avère également que moins un modèle voit un fait pendant son apprentissage, plus il est susceptible d'halluciner lorsqu'on lui pose une question à ce sujet. Dans le cas des anniversaires de personnalités notables, par exemple, il a été constaté que si 20 % des anniversaires de ces personnes n'apparaissent qu'une seule fois dans les données d'apprentissage, les modèles de base devraient se tromper dans au moins 20 % des requêtes relatives aux anniversaires.
Effectivement, lorsque les chercheurs ont demandé à des modèles de pointe la date d'anniversaire d'Adam Kalai, l'un des auteurs de l'article, DeepSeek-V3 a fourni avec assurance trois dates incorrectes différentes lors de tentatives distinctes : « 03-07 », « 15-06 » et « 01-01 ». La date correcte se situant à l'automne, aucune de ces dates n'était même proche.
En pratique, trois facteurs structurent ce phénomène :
- Les lacunes dans les données : aucune base d’entraînement ne couvre la totalité du savoir humain. Les modèles doivent donc extrapoler, avec un risque élevé d’erreurs.
- L’ambiguïté des questions : certaines formulations ne renvoient pas à une vérité unique. Le modèle doit trancher, parfois arbitrairement.
- La nature probabiliste du calcul : les modèles ne manipulent pas de « vérités », mais des probabilités de séquences de mots. La plausibilité l’emporte systématiquement sur la vérification.
C’est pourquoi, même si ChatGPT semble plus fiable au fil des itérations, il continuera inévitablement à « halluciner ».

Le piège de l'évaluation
Plus troublante encore est l'analyse faite par l'article des raisons pour lesquelles les hallucinations persistent malgré les efforts déployés après la formation (tels que fournir des commentaires humains détaillés sur les réponses d'une IA avant sa mise à disposition au public). Les auteurs ont examiné dix benchmarks majeurs en matière d'IA, notamment ceux utilisés par Google, OpenAI et les classements des meilleurs modèles d'IA. Cela a révélé que neuf benchmarks utilisent des systèmes de notation binaires qui attribuent zéro point aux IA exprimant une incertitude.
Cela crée ce que les auteurs qualifient « d'épidémie » de pénalisation des réponses honnêtes. Lorsqu'un système d'IA répond « Je ne sais pas », il reçoit la même note que s'il avait donné une information complètement erronée. La stratégie optimale dans le cadre d'une telle évaluation devient alors évidente : toujours deviner.
Les chercheurs le prouvent mathématiquement. Quelles que soient les chances qu'une réponse particulière soit correcte, le score attendu en devinant dépasse toujours le score obtenu en s'abstenant lorsqu'une évaluation utilise une notation binaire.
La proposition : un « seuil de confiance »
Pour répondre à ce problème, OpenAI explore une piste technique : introduire un « seuil de confiance ». Le modèle ne devrait répondre que si son degré de certitude dépasse un certain niveau ; dans le cas contraire, il devrait avouer ne pas savoir. Cela rappellerait le comportement d’un expert prudent plutôt que celui d’un interlocuteur omniscient.
L'IA pourrait alors recevoir l'instruction suivante, par exemple : « Ne répondez que si vous êtes sûr à plus de 75 %, car les erreurs sont pénalisées de 3 points tandis que les réponses correctes rapportent 1 point. » Le cadre mathématique des chercheurs d'OpenAI montre que, sous des seuils de confiance appropriés, les systèmes d'IA exprimeraient naturellement leur incertitude plutôt que de deviner. Cela conduirait donc à moins d'hallucinations. Le problème est de savoir quel serait l'impact sur l'expérience utilisateur.
Sur le papier, la solution paraît séduisante. Mais plusieurs chercheurs pointent un effet pervers : si ce mécanisme était appliqué strictement, ChatGPT deviendrait parfois muet. Les zones de doute sont si nombreuses que l’outil refuserait de répondre dans une grande partie des cas, tuant dans...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.