Les chercheurs avertissent que les industries de l'IA sont en train de submerger la science d'études inutiles,

Face à l'explosion des publications automatisées basées sur des données comme la NHANES

Le 14 mai 2025 à 17:14, par Bruno

170PARTAGES

Les chercheurs avertissent que les industries de l'IA sont en train de submerger la science d'études inutiles,
face à l’explosion des publications automatisées basées sur des données comme la NHANES

Le rapport de l’université du Surrey soulève une question cruciale : l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces « usines à papier », profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes. Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur).

Cette crise révèle aussi des enjeux systémiques : la marchandisation de la recherche, illustrée par des revues prédatrices, et l’instrumentalisation des données par certains acteurs (comme la Chine, devenue majoritaire dans ces publications). Les solutions proposées, vigilance accrue des éditeurs, encadrement des accès aux données, pointent vers une nécessaire réforme. Cependant, elles se heurtent à un paradoxe : l’IA, outil potentiel d’innovation, devient un vecteur de désinformation lorsque détournée par des logiques productivistes ou idéologiques. Ce phénomène s’inscrit dans un paysage plus large où le « slop » IA brouille les frontières entre réalité et fiction, exigeant une réponse collective pour préserver la crédibilité de la science.

Cette pratique connaît une croissance exponentielle depuis 2021, submergeant les revues scientifiques y compris celles soumises à évaluation par les pairs. Alors que seulement quatre articles de ce type étaient publiés annuellement entre 2014 et 2021, leur nombre est passé à 33 en 2022, 82 en 2023, et atteignait déjà 190 à la mi-octobre 2024. Cette inflation soudaine met en lumière les limites du système actuel d'évaluation scientifique, dont les mécanismes de contrôle apparaissent dépassés face à ce déluge.

L'étude révèle également un changement notable dans la géographie de ces publications. La part des chercheurs chinois parmi les auteurs principaux est passée de 8% avant 2021 à 92% entre 2021 et 2024. Cette concentration géographique, combinée à la prédominance des approches monofactorielles, accroît le risque de pollution du corpus scientifique par des conclusions erronées, particulièrement pour des sujets complexes comme la dépression ou les maladies cardiovasculaires.

Matt Spick, coauteur de l'étude, dénonce ces « fictions scientifiques » qui, sous couvert de données publiques, contournent les exigences méthodologiques fondamentales. « Ces articles ont l'apparence de la science mais ne résistent pas à un examen rigoureux », explique-t-il, pointant du doigt la combinaison dangereuse entre l'accès facilité aux bases de données et les capacités des grands modèles de langage. Cette situation engorge les revues scientifiques et dépasse les capacités des évaluateurs, menaçant à terme la crédibilité de l'ensemble de la recherche.

Monétisation, dragage de données et IA : vers une crise de la rigueur scientifique

Le phénomène s'inscrit dans un contexte plus large de marchandisation de la recherche scientifique, où certaines revues prédatrices monnayent la publication sans garantir la qualité des travaux. Les chercheurs identifient deux pratiques particulièrement préoccupantes : l'utilisation systématique d'analyses monofactorielles inadaptées à des problèmes complexes, et le « dragage » de données consistant à sélectionner arbitrairement des sous-ensembles pour confirmer des hypothèses préétablies. Le « dragage de données » est une pratique statistique qui consiste à explorer et analyser un ensemble de données de manière répétée, sans hypothèse préétablie, afin de trouver des corrélations ou des modèles qui pourraient sembler significatifs, mais qui en réalité seraient simplement le résultat du hasard.

Les entreprises spécialisées dans la falsification scientifique se multiplient, produisant des articles sur commande contre rémunération. Grâce aux avancées de l’intelligence artificielle (IA), ces contenus sont de plus en plus difficiles à détecter. Des outils sophistiqués permettent en effet de générer automatiquement du texte et des images convaincants, imitant le style et les données de véritables publications.

Face à ce risque, plusieurs grands éditeurs scientifiques ont pris des mesures. Certains ont interdit ou limité l’usage de ChatGPT dans les articles soumis, craignant l’insertion de contenus erronés ou plagiés dans la littérature académique. Tandis que quelques chercheurs ont tenté de désigner le chatbot comme coauteur, des revues comme Science ont choisi d’interdire toute utilisation directe de son texte dans les manuscrits. Springer Nature, de son côté, accepte l’assistance de l’IA pour la rédaction, mais impose une transparence totale sur son usage et rejette l’idée de lui attribuer la qualité d’auteur.

Ces décisions interviennent alors que le débat sur la place de l’IA dans la production intellectuelle s’intensifie, notamment après les controverses liées à son emploi dans les médias comme CNET. De nombreux experts estiment que ChatGPT pourrait bouleverser durablement le secteur éditorial, en particulier dans les domaines facilement automatisables comme le journalisme sportif ou financier. Ce chatbot, développé par OpenAI, est capable de rédiger des textes complexes à partir de sources accessibles en ligne, posant de nouveaux défis en matière d’authenticité et de fiabilité.

« Les organisations informelles, voire illégales, capables de produire de faux articles avec des données de plus en plus crédibles vont proliférer grâce à l’IA », alerte Jennifer Byrne, biologiste moléculaire et spécialiste de l’intégrité scientifique à l’Université de Sydney.

Face à cette situation, l'équipe du Surrey propose plusieurs mesures correctives. Elles incluent un renforcement de la vigilance des éditeurs, un meilleur encadrement de l'accès aux données, et l'obligation de justifier toute analyse partielle des jeux de données. Ces propositions visent à rétablir des garde-fous sans pour autant entraver l'innovation ou restreindre indûment l'accès aux données.

Ce phénomène illustre le paradoxe de l'IA dans la recherche : outil potentiel d'avancées majeures, elle devient aussi un vecteur de désinformation lorsqu'elle est détournée par des logiques productivistes. La situation appelle une réponse collective de la communauté scientifique pour préserver les fondements mêmes de la connaissance, alors que les frontières entre recherche authentique et "science-fiction" deviennent de plus en plus floues.

L’impact des API et des outils d’analyse standardisés sur la recherche basée sur NHANES

La quantité de données biologiques à la disposition des chercheurs a considérablement augmenté ces dernières années, ce qui a multiplié les possibilités de recherche axée sur les données. À mesure que davantage d'informations deviennent disponibles dans des formats prêts pour l'intelligence artificielle, la recherche, lorsqu'elle est effectuée conformément aux meilleures pratiques - devrait devenir plus rapide et plus reproductible. La grande disponibilité de ces ensembles de données peut toutefois poser de nouveaux problèmes, en facilitant la production de manuscrits de bout en bout, à grande échelle, avec l'aide de l'IA. Il s'agit d'une pratique qui peut être adoptée par les usines à papier, définies par le groupe de travail United2Act Research comme des organisations clandestines qui fournissent des manuscrits de mauvaise qualité ou fabriqués à des clients payants.

L'ancienneté de la NHANES a conduit à la création de bibliothèques R et Python qui fournissent, entre autres, des outils automatisés de recherche, d'extraction et d'analyse, offrant des flux de travail standardisés et améliorant la reproductibilité. Ces outils, ainsi que d'autres environnements de codage et bibliothèques largement utilisés, peuvent contribuer de manière significative à la production rapide de résultats et aux publications qui s'ensuivent. La capacité des chercheurs à automatiser le processus d'extraction des données par le biais d'une interface de programmation d'application (API ; conformément aux lignes directrices FAIR selon lesquelles les données doivent pouvoir être récupérées par identifiant à l'aide d'un protocole de communication normalisé), permet le transfert des données directement vers des environnements d'apprentissage automatique, ce qui facilite l'exploration rapide et complète des données.

La possibilité d'extraire des données via une API directement dans des environnements d'apprentissage automatique tels que R ou Python peut transformer la productivité, le nombre d'hypothèses pouvant être testées n'étant limité que par l'accès informatique, mais cela peut aussi comporter des risques. L'accent mis sur les analyses à facteur unique peut être particulièrement problématique, étant donné la nature multifactorielle de nombreuses maladies, ainsi que la difficulté de différencier les prédicteurs qui sont spécifiques à un état de santé de ceux qui sont communs à différents types de maladies.

En outre, la possibilité de générer un grand nombre de modèles d'apprentissage automatique permet d'étudier rapidement et a posteriori d'autres hypothèses, au cas où la principale hypothèse a priori ne serait pas confirmée (une forme d'émission d'hypothèses après que les résultats sont connus, ou HARKing). Grâce à l'accès facile à l'informatique, il est possible d'effectuer une recherche étendue pour toute combinaison d'indicateur, d'état de santé, de cohorte et de fenêtre temporelle qui produit une valeur p faible. Si le dragage des données est un phénomène bien décrit, les pipelines d'accès direct à l'IA peuvent rendre les pipelines de recherche basés sur des formules plus productifs qu'ils ne l'étaient auparavant. Ce gain de productivité devrait être particulièrement intéressant pour les papeteries.

Les résultats de la stratégie de recherche systématique visant à identifier les articles de recherche associative dérivés de NHANES et publiés au cours de la dernière décennie sont présentés ci-dessous :

Vers une gouvernance éthique de l’accès aux données scientifiques à l’ère de l’IA

L'étude de l'université du Surrey souligne que la multiplication des recherches basées sur des analyses à facteur unique accroît significativement le risque d'introduire des conclusions erronées dans la littérature scientifique. Cette approche réductionniste, appliquée à des phénomènes complexes, fausse la compréhension de problèmes de santé multifactoriels comme la dépression ou les maladies cardiovasculaires, pourtant reconnus comme résultant de multiples causes interdépendantes.
Face à cette dérive, les chercheurs proposent plusieurs mesures correctives. Ils recommandent notamment que les comités de rédaction considèrent systématiquement les études monofactorielles sur des sujets complexes comme des signaux d'alerte nécessitant un examen particulièrement rigoureux. Cette vigilance accrue permettrait d'identifier plus facilement les travaux problématiques avant publication.

Le rapport préconise également un meilleur encadrement de l'accès aux bases de données scientifiques. L'instauration de clés API individuelles et de numéros d'application, à l'image du système déjà mis en place par la UK Biobank, pourrait limiter les pratiques de dragage de données. Chaque publication devrait ainsi inclure un identifiant vérifiable attestant d'un usage légitime des données.

Une autre proposition consiste à imposer l'analyse de l'ensemble des données disponibles, sauf justification méthodologique solide pour se limiter à un sous-ensemble. Cette mesure viserait à prévenir les biais de sélection qui faussent souvent les résultats des études générées massivement. « Notre objectif n'est pas de restreindre l'accès aux données ou d'interdire l'usage de l'IA, mais d'instaurer des garde-fous essentiels », précise Tulsi Suchak, auteur principal de l'étude.

La situation n'est pas sans précédent. L'an dernier, l'éditeur Wiley avait déjà dû retirer 19 revues scientifiques de sa filiale Hindawi, compromises dans la publication massive d'articles produits par des usines à papier utilisant l'IA. Ce cas illustre l'ampleur du phénomène et la nécessité d'une réponse coordonnée de la communauté scientifique.

Ce problème s'inscrit dans une tendance plus large de prolifération de contenus générés par l'IA, qualifiés de "AI slop". Ces productions, qui vont des deepfakes de personnalités aux images historiques falsifiées, contaminent progressivement les canaux d'information et brouillent les frontières entre réalité et fiction. La recherche scientifique se trouve ainsi confrontée à un double défi : préserver son intégrité face aux dérives permises par les nouvelles technologies, tout en continuant à bénéficier des avancées qu'elles permettent. Cet équilibre délicat nécessitera probablement l'élaboration de nouveaux protocoles et normes éthiques adaptés à l'ère de l'IA.

Au-delà des mesures techniques, c'est peut-être une réflexion plus profonde sur les finalités de la recherche qui s'impose. Alors que la course à la publication prend parfois le pas sur la qualité scientifique, la communauté académique doit réaffirmer ses valeurs fondamentales : rigueur méthodologique, transparence et recherche authentique de la vérité.

La vérité scientifique noyée dans un océan de faux-semblants

L'alerte lancée par l'université du Surrey met en lumière une crise systémique qui dépasse largement la simple question des publications générées par l'IA. Le problème révèle en réalité les failles structurelles d'un système académique où la quantité prime souvent sur la qualité, où les indicateurs de performance biaisés (nombre de publications) l'emportent sur l'impact scientifique réel. La croissance exponentielle de ces articles "low cost" - multipliés par 47 en trois ans - montre comment l'IA vient exacerber des dérives existantes plutôt qu'elle ne crée un problème nouveau.

L'évaluation par les pairs, souvent présentée comme rempart absolu, montre ses limites face à ce tsunami. Comme le soulignent certains commentaires, le système repose sur le bénévolat de chercheurs surchargés, parfois peu spécialisés sur le sujet évalué, et totalement dépassés par le volume croissant de soumissions. L'argument selon lequel "les bonnes revues filtrent" ne tient plus lorsque même des publications réputées se font piéger par des articles plausibles mais creux. Le cas chinois est particulièrement révélateur : cette concentration géographique suggère l'existence de véritables "usines à publications" institutionnalisées, répondant à des impératifs bureaucratiques (classements universitaires, financements) plutôt qu'à une authentique démarche scientifique.

Le vrai danger réside dans la contamination progressive du corpus scientifique par ce que l'on pourrait appeler une "pollution académique". Contrairement aux fake news ordinaires, ces articles possèdent toutes les apparences de la légitimité scientifique : méthodologie (simpliste mais présentable), données réelles (mais triturées), revues à comité de lecture (parfois prédatrices, mais pas toujours). Ils deviennent ainsi des armes parfaites pour qui souhaite instrumentaliser la science, comme le montre le commentaire sur l'usage détourné de l'étude Wakefield par les anti-vaccins.

La solution ne résidera pas dans des mesures techniques comme les clés API ou les numéros d'accès, aussi nécessaires soient-elles. Elle exigera une refonte profonde des incitations dans le monde académique : moins de poids donné aux métriques quantitatives, plus de reconnaissance pour les relecteurs, une véritable éthique de la publication. Parallèlement, il devient urgent d'éduquer le public (et les journalistes) à une lecture critique des études scientifiques - non pas dans leur jargon technique, mais dans leurs faiblesses méthodologiques possibles. Car comme le note un commentaire, le vrai problème n'est pas que ces articles existent, mais qu'ils soient pris pour argent comptant par des publics non avertis.

En définitive, cette crise pose une question fondamentale : voulons-nous une science qui produit du savoir ou une science qui produit des publications ? L'IA, comme souvent, ne fait qu'amplifier et rendre visible un choix de société qui nous appartient.

Source : Research team from the University of Surrey

Et vous ?

Les conclusions de l'étude des chercheurs de l'université du Surrey sont-elles crédible et pertinentes ?

Peut-on encore faire confiance aux études publiées dans des revues à comité de lecture si les filtres de qualité sont saturés ou défaillants ?

Faut-il réformer les critères de carrière académique pour privilégier la qualité et l’impact réel plutôt que la quantité ?

La science doit-elle adopter un code éthique spécifique à l’usage de l’IA, au même titre que la médecine ou le journalisme ?

Voir ausi :

ChatGPT produirait de faux documents universitaires, alors que des professions se sentent menacées par le célèbre outil d'OpenAI

Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA, les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

Vous avez lu gratuitement 2 351 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :