Génération de contre-vérités, citations fictives, faits inexacts, les hallucinations de l'IA obligent arXiv à imposer une suspension d'un an pour les références inventées de toutes pièces

Le 15 mai 2026 à 22:50, par Jade Emy

27PARTAGES

Génération de contre-vérités, citations fictives, faits inexacts, les hallucinations de l'IA obligent arXiv à imposer une suspension d'un an pour les références inventées de toutes pièces

arXiv a récemment commencé à appliquer une nouvelle politique sans concession : soumettez un article contenant des citations hallucinatoires générées par l'IA — des références à des articles qui n'existent pas réellement — et vous serez banni de la plateforme pendant un an. Au terme de cette année, toutes les futures soumissions sur arXiv devront d'abord passer par un examen par les pairs dans une revue réputée avant de pouvoir être publiées.

arXiv (prononcé « archive » — le X représente la lettre grecque chi ⟨χ⟩

est un dépôt en libre accès de prépublications et de postpublications électroniques (appelées « e-prints ») dont la publication a été approuvée après modération, mais qui n’ont pas fait l’objet d’une évaluation par les pairs. Il contient des articles scientifiques dans les domaines des mathématiques, de la physique, de l'astronomie, du génie électrique, de l'informatique, de la biologie quantitative, des statistiques, de la finance mathématique et de l'économie, accessibles en ligne.

Dans de nombreux domaines des mathématiques et de la physique, la quasi-totalité des articles scientifiques sont auto-archivés sur le dépôt arXiv avant leur publication dans une revue à comité de lecture. Certains éditeurs autorisent également les auteurs à archiver le post-print ayant fait l'objet d'une évaluation par les pairs. Lancé le 14 août 1991, arxiv.org a franchi le cap du demi-million d'articles le 3 octobre 2008. Fin 2014, il avait dépassé le million d'articles, et il a atteint les deux millions fin 2021. En novembre 2024, le taux de soumission est d'environ 24 000 articles par mois.

En 2025, une étude a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Avec environ 1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.

En avril 2026, un rapport a révélé que des dizaines de milliers d'articles publiés en 2025 contiendraient des références bibliographiques inventées de toutes pièces par des modèles de langage. Une enquête de Nature et plusieurs analyses indépendantes révèlent l'ampleur d'une contamination silencieuse qui menace les fondements mêmes de la recherche scientifique. L'ampleur du phénomène est difficile à mesurer avec précision, mais les ordres de grandeur qui émergent des différentes analyses disponibles sont éloquents. Une analyse portant sur près de 18 000 communications acceptées dans trois conférences en informatique a révélé une hausse brutale des références impossibles à relier à des publications réelles : 2,6 % des articles de 2025 contenaient au moins une citation potentiellement hallucinée, contre environ 0,3 % en 2024. En un an, le taux a été multiplié par neuf.

Dans ce contexte, arXiv a récemment commencé à appliquer une nouvelle politique sans concession : soumettez un article contenant des citations hallucinatoires générées par l'IA — des références à des articles qui n'existent pas réellement — et vous serez banni de la plateforme pendant un an. Au terme de cette année, toutes les futures soumissions sur arXiv devront d'abord passer par un examen par les pairs dans une revue réputée avant de pouvoir être publiées. Cette annonce intervient alors que les données montrent que les citations hallucinatoires ont été multipliées par dix depuis 2023, atteignant 1 article sur 277 début 2026.

Attention @arxiv authors: Our Code of Conduct states that by signing your name as an author of a paper, each author takes full responsibility for all its contents, irrespective of how the contents were generated. 1/
— Thomas G. Dietterich (@tdietterich) May 14, 2026

Le taux d’articles comportant des citations inventées a explosé, en corrélation quasi parfaite avec l’adoption des outils de rédaction basés sur l’IA. En 2023, environ 1 article sur 2 828 contenait une référence inventée. En 2025, ce chiffre était passé à 1 sur 458. Début 2026, il était de 1 sur 277 — soit une multiplication par dix en trois ans. Une étude publiée ce mois-ci dans The Lancet a analysé plus de 2 millions d’articles et 97 millions de citations, et a recensé environ 4 000 citations inventées dans 2 800 articles rien que dans l’échantillon étudié.

L’incident de NeurIPS 2025 a donné un visage à ces chiffres. GPTZero a analysé 4 841 articles NeurIPS acceptés et a trouvé plus de 100 citations inventées de toutes pièces dans 53 articles — des articles qui avaient chacun devancé plus de 15 000 autres soumissions et passé avec succès l'examen d'au moins trois évaluateurs humains. Il s'avère que les évaluateurs ne vérifient presque jamais si les articles cités existent réellement. Le problème est systémique, et non pas anecdotique.

La sanction comporte deux volets. Premièrement, une interdiction totale de soumettre des articles à arXiv pendant un an. Deuxièmement — et c'est là que réside la véritable sévérité —, une fois l'interdiction levée, l'auteur devra faire accepter toutes ses futures soumissions par une revue à comité de lecture réputée avant de les publier sur arXiv. Pour les chercheurs en informatique et en IA qui comptent sur arXiv pour une diffusion rapide de leurs prépublications, la perte de cet accès prioritaire aux prépublications constitue un obstacle majeur à leur carrière. La plupart des articles sont publiés sur arXiv la même semaine où ils sont soumis à des conférences ; devoir attendre l’évaluation par les pairs peut signifier se faire devancer de plusieurs mois.

La justification avancée par arXiv ne laisse aucune marge de manœuvre : « En apposant sa signature en tant qu’auteur d’un article, chaque auteur assume l’entière responsabilité de l’ensemble de son contenu, quelle que soit la manière dont celui-ci a été généré. » Cette politique considère les citations fantômes non pas comme un échec de l’IA, mais comme un échec de l’auteur. Ce cadrage est délibéré.

Pourtant même OpenAI, l'éditeur de ChatGPT, reconnaît que les hallucinations de ChatGPT ne disparaîtront jamais. En septembre 2025, un papier scientifique d’OpenAI, Why Language Models Hallucinate, acte une vérité dérangeante : les « hallucinations » des modèles de langage ne sont pas une anomalie, mais une conséquence incontournable de leur conception. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité.

Et vous ?

Pensez-vous que cette décision est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les chercheurs avertissent que les industries de l'IA sont en train de submerger la science d'études inutiles, face à l'explosion des publications automatisées basées sur des données comme la NHANES

Wikipédia a interdit les textes générés par l'IA, après avoir été confrontée à des faits erronés, des citations invérifiables, des perturbations dans la collaboration et des exemples d'échecs liés à l'IA

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA, environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

Vous avez lu gratuitement 3 874 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Génération de contre-vérités, citations fictives, faits inexacts, les hallucinations de l'IA obligent arXiv à imposer une suspension d'un an pour les références inventées de toutes pièces

Identifiant
Mot de passe

Mot de passe oublié ?