Le rapport de l’université du Surrey soulève une question cruciale : l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces « usines à papier », profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes. Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur).Cette crise révèle aussi des enjeux systémiques : la marchandisation de la recherche, illustrée par des revues prédatrices, et l’instrumentalisation des données par certains acteurs (comme la Chine, devenue majoritaire dans ces publications). Les solutions proposées, vigilance accrue des éditeurs, encadrement des accès aux données, pointent vers une nécessaire réforme. Cependant, elles se heurtent à un paradoxe : l’IA, outil potentiel d’innovation, devient un vecteur de désinformation lorsque détournée par des logiques productivistes ou idéologiques. Ce phénomène s’inscrit dans un paysage plus large où le « slop » IA brouille les frontières entre réalité et fiction, exigeant une réponse collective pour préserver la crédibilité de la science.
Cette pratique connaît une croissance exponentielle depuis 2021, submergeant les revues scientifiques y compris celles soumises à évaluation par les pairs. Alors que seulement quatre articles de ce type étaient publiés annuellement entre 2014 et 2021, leur nombre est passé à 33 en 2022, 82 en 2023, et atteignait déjà 190 à la mi-octobre 2024. Cette inflation soudaine met en lumière les limites du système actuel d'évaluation scientifique, dont les mécanismes de contrôle apparaissent dépassés face à ce déluge.
L'étude révèle également un changement notable dans la géographie de ces publications. La part des chercheurs chinois parmi les auteurs principaux est passée de 8% avant 2021 à 92% entre 2021 et 2024. Cette concentration géographique, combinée à la prédominance des approches monofactorielles, accroît le risque de pollution du corpus scientifique par des conclusions erronées, particulièrement pour des sujets complexes comme la dépression ou les maladies cardiovasculaires.
Matt Spick, coauteur de l'étude, dénonce ces « fictions scientifiques » qui, sous couvert de données publiques, contournent les exigences méthodologiques fondamentales. « Ces articles ont l'apparence de la science mais ne résistent pas à un examen rigoureux », explique-t-il, pointant du doigt la combinaison dangereuse entre l'accès facilité aux bases de données et les capacités des grands modèles de langage. Cette situation engorge les revues scientifiques et dépasse les capacités des évaluateurs, menaçant à terme la crédibilité de l'ensemble de la recherche.
Monétisation, dragage de données et IA : vers une crise de la rigueur scientifique
Le phénomène s'inscrit dans un contexte plus large de marchandisation de la recherche scientifique, où certaines revues prédatrices monnayent la publication sans garantir la qualité des travaux. Les chercheurs identifient deux pratiques particulièrement préoccupantes : l'utilisation systématique d'analyses monofactorielles inadaptées à des problèmes complexes, et le « dragage » de données consistant à sélectionner arbitrairement des sous-ensembles pour confirmer des hypothèses préétablies. Le « dragage de données » est une pratique statistique qui consiste à explorer et analyser un ensemble de données de manière répétée, sans hypothèse préétablie, afin de trouver des corrélations ou des modèles qui pourraient sembler significatifs, mais qui en réalité seraient simplement le résultat du hasard.
Les entreprises spécialisées dans la falsification scientifique se multiplient, produisant des articles sur commande contre rémunération. Grâce aux avancées de l’intelligence artificielle (IA), ces contenus sont de plus en plus difficiles à détecter. Des outils sophistiqués permettent en effet de générer automatiquement du texte et des images convaincants, imitant le style et les données de véritables publications.
Face à ce risque, plusieurs grands éditeurs scientifiques ont pris des mesures. Certains ont interdit ou limité l’usage de ChatGPT dans les articles soumis, craignant l’insertion de contenus erronés ou plagiés dans la littérature académique. Tandis que quelques chercheurs ont tenté de désigner le chatbot comme coauteur, des revues comme Science ont choisi d’interdire toute utilisation directe de son texte dans les manuscrits. Springer Nature, de son côté, accepte l’assistance de l’IA pour la rédaction, mais impose une transparence totale sur son usage et rejette l’idée de lui attribuer la qualité d’auteur.
Ces décisions interviennent alors que le débat sur la place de l’IA dans la production intellectuelle s’intensifie, notamment après les controverses liées à son emploi dans les médias comme CNET. De nombreux experts estiment que ChatGPT pourrait bouleverser durablement le secteur éditorial, en particulier dans les domaines facilement automatisables comme le journalisme sportif ou financier. Ce chatbot, développé par OpenAI, est capable de rédiger des textes complexes à partir de sources accessibles en ligne, posant de nouveaux défis en matière d’authenticité et de fiabilité.
« Les organisations informelles, voire illégales, capables de produire de faux articles avec des données de plus en plus crédibles vont proliférer grâce à l’IA », alerte Jennifer Byrne, biologiste moléculaire et spécialiste de l’intégrité scientifique à l’Université de Sydney.
Face à cette situation, l'équipe du Surrey propose plusieurs mesures correctives. Elles incluent un renforcement de la vigilance des éditeurs, un meilleur encadrement de l'accès aux données, et l'obligation de justifier toute analyse partielle des jeux de données. Ces propositions visent à rétablir des garde-fous sans pour autant entraver l'innovation ou restreindre indûment l'accès aux données.
Ce phénomène illustre le paradoxe de l'IA dans la recherche : outil potentiel d'avancées majeures, elle devient aussi un vecteur de désinformation lorsqu'elle est détournée par des logiques productivistes. La situation appelle une réponse collective de la communauté scientifique pour préserver les fondements mêmes de la connaissance, alors que les frontières entre recherche authentique et "science-fiction" deviennent de plus en plus floues.
L’impact des API et des outils d’analyse standardisés sur la recherche basée sur NHANES
La quantité de données biologiques à la disposition des chercheurs a considérablement augmenté ces dernières...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

