
Dans un monde où l’intelligence artificielle (IA) joue un rôle de plus en plus central, une nouvelle menace émerge : la prolifération d’articles scientifiques falsifiés générés par des modèles de langage comme GPT. Récemment, des chercheurs en désinformation ont découvert que ces articles, souvent indiscernables des véritables publications scientifiques, se retrouvent sur Google Scholar, une plateforme largement utilisée par les chercheurs et les étudiants du monde entier. Cette découverte soulève des questions cruciales sur l’intégrité de la recherche scientifique et la confiance du public dans les connaissances académiques.
L'utilisation de ChatGPT pour générer des textes pour des articles académiques a soulevé des inquiétudes quant à l'intégrité de la recherche. Ce phénomène fait l'objet de discussions continues dans des éditoriaux, des commentaires, des articles d'opinion et sur les médias sociaux. Bien qu'il existe de nombreuses utilisations légitimes des GPT pour la recherche et la rédaction universitaire, leur utilisation non déclarée (au-delà de la relecture) a des implications potentiellement considérables pour la science et la société, mais surtout pour leurs relations. Il semble donc important d'étendre la discussion à l'un des intermédiaires les plus accessibles et les plus connus entre la science, mais aussi certains types de désinformation, et le public, à savoir Google Scholar, également en réponse aux préoccupations légitimes selon lesquelles la discussion sur l'IA générative et la désinformation doit être plus nuancée et étayée empiriquement.
Google Scholar est un moteur de recherche académique facile à utiliser. Il est disponible gratuitement et son index est très complet. Il est également souvent présenté comme une source crédible de littérature universitaire et même recommandé dans les guides des bibliothèques, par les initiatives d'éducation aux médias et à l'information et par les vérificateurs de faits. Cependant, Google Scholar n'a pas la transparence et le respect des normes qui caractérisent habituellement les bases de données de citations. Au lieu de cela, Google Scholar utilise des robots automatisés, comme le moteur de recherche de Google, et les critères d'inclusion sont basés sur des normes essentiellement techniques, permettant à tout auteur individuel - avec ou sans affiliation scientifique - de télécharger (upload) des articles à indexer.
Il a été démontré que Google Scholar est susceptible d'être manipulé par des exploitations de citations et en donnant accès à de faux articles scientifiques. Une grande partie de l'index de Google Scholar est constituée de publications provenant de revues scientifiques établies ou d'autres formes de littérature savante dont la qualité est contrôlée. Cependant, l'index contient également une grande quantité de littérature grise, y compris des travaux d'étudiants, des documents de travail, des rapports, des serveurs de prépublication et des sites de réseaux universitaires, ainsi que des documents provenant de revues universitaires dites « douteuses », y compris des usines à articles (ou paper mills en anglais). L'interface de recherche n'offre pas la possibilité de filtrer les résultats de manière significative en fonction du type de matériel, du statut de la publication ou d'une forme de contrôle de la qualité, telle que la limitation de la recherche au matériel évalué par les pairs.
Les usines à articles renforcés par l'IA générative
Il s'agit de sociétés qui vendent de grandes quantités d’articles scientifiques frauduleux à des auteurs cherchant à augmenter leur nombre de publications pour obtenir une promotion ou un poste.
Les auteurs paient pour obtenir un article, généralement de mauvaise qualité, contenant de fausses données, des informations plagiées ou douteuses et parfois écrit par une intelligence artificielle. Ces « faux articles » peuvent ensuite être facilement publiés dans des revues prédatrices qui n’effectuent pas ou peu de révision par les pairs.
Depuis quelques temps, ces sociétés sont passées à la vitesse supérieure en corrompant des éditeurs de revues pour faire accepter leurs articles, comme le raconte Frederik Joelving de Retraction Watch dans un article publié dans Science en janvier 2024. Les paper mills paient des rédacteurs en chef pour qu’ils acceptent leurs articles rapidement ou pour placer leurs propres éditeurs ou reviewers dans les comités éditoriaux des journaux.
Le médecin de santé publique Hervé Maisonneuve, auteur du blog « Rédaction médicale », explique que ces entreprises connaissent très bien la codification des publications. « Les paper mills utilisent aussi des algorithmes d’écriture automatique, rapporte-t-il. Vous rentrez des chiffres dans un fichier Excel et le robot vous sort un article. » Pour illustrer en quoi l’intelligence artificielle (IA) fait énormément bouger les lignes, il rappelle l’histoire du « robot chercheur », auteur de faux articles et inventé par le programmeur Cyril Labbé. L’informaticien a aussi mis au point un système pour détecter les articles élaborés par des IA. Les algorithmes sont parfois trahis par des éléments très cocasses. Par exemple, dans un article consacré au cancer de la prostate, la moitié des patients sont des femmes.
Ces entreprises pratiquent souvent un autre type d’escroquerie, la fraude à la paternité, « dans laquelle certains ou tous les auteurs de l’article n’ont pas contribué au projet de recherche », confie Anna Abalkina, chercheuse à l’Université libre de Berlin. Ils proposent à un chercheur d’être ajouté comme co-auteur d’un article. Certains sont prêts à payer cher. Ces fausses collaborations révèlent parfois « l’entourloupe ». Parmi les articles de paper mills qu’elle a dévoilés, Anna Abalkina en désigne un dans lequel « un chercheur en médecine et un économiste écrivent ensemble un article sur le génie chimique ! »
Caractéristiques des articles falsifiés
Les articles falsifiés générés par GPT présentent plusieurs caractéristiques distinctives. Ils abordent fréquemment des sujets d’actualité et controversés, tels que le changement climatique, la santé publique et les technologies de l’information. Ces sujets sont particulièrement vulnérables à la désinformation en raison de leur complexité et de leur importance sociétale. Une analyse approfondie de ces articles révèle qu’ils contiennent souvent des phrases et des structures typiques des modèles de langage de grande taille (LLM) comme GPT. Par exemple, ils peuvent inclure des citations inventées, des références à des études inexistantes et des conclusions qui semblent plausibles mais qui ne sont pas fondées sur des données réelles.
Diffusion et accessibilité
La facilité avec laquelle ces articles falsifiés peuvent être trouvés sur Google Scholar est alarmante. Contrairement aux bases de données académiques traditionnelles qui appliquent des critères stricts de sélection et de révision par les pairs, Google Scholar indexe un large éventail de contenus, y compris des prépublications, des thèses et des rapports techniques. Cette approche inclusive, bien qu’utile pour l’accès à une grande variété de documents, ouvre également la porte à la diffusion de contenus de qualité douteuse. Les articles générés par GPT peuvent ainsi se retrouver aux côtés de recherches rigoureusement contrôlées, ce qui complique la tâche des chercheurs et des étudiants pour distinguer le vrai du faux.
Implications pour la confiance publique
La présence d’articles scientifiques falsifiés sur Google Scholar pose un risque sérieux pour la confiance du public dans la science. Les chercheurs, les étudiants et même les décideurs politiques s’appuient sur cette plateforme pour accéder à des informations fiables et à jour. La possibilité que des contenus apparemment scientifiques soient en réalité créés de manière trompeuse par des outils d’IA pourrait saper la base de la confiance dans les connaissances...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.