Les chercheurs en désinformation ont récemment mis en lumière un phénomène inquiétant : la prolifération d’articles scientifiques falsifiés, générés par des modèles de langage comme GPT, sur Google Scholar. Ces articles, souvent créés à l’aide d’applications d’IA largement disponibles comme ChatGPT, imitent l’écriture scientifique et sont facilement accessibles via des moteurs de recherche académiques.
Dans un monde où l’intelligence artificielle (IA) joue un rôle de plus en plus central, une nouvelle menace émerge : la prolifération d’articles scientifiques falsifiés générés par des modèles de langage comme GPT. Récemment, des chercheurs en désinformation ont découvert que ces articles, souvent indiscernables des véritables publications scientifiques, se retrouvent sur Google Scholar, une plateforme largement utilisée par les chercheurs et les étudiants du monde entier. Cette découverte soulève des questions cruciales sur l’intégrité de la recherche scientifique et la confiance du public dans les connaissances académiques.
L'utilisation de ChatGPT pour générer des textes pour des articles académiques a soulevé des inquiétudes quant à l'intégrité de la recherche. Ce phénomène fait l'objet de discussions continues dans des éditoriaux, des commentaires, des articles d'opinion et sur les médias sociaux. Bien qu'il existe de nombreuses utilisations légitimes des GPT pour la recherche et la rédaction universitaire, leur utilisation non déclarée (au-delà de la relecture) a des implications potentiellement considérables pour la science et la société, mais surtout pour leurs relations. Il semble donc important d'étendre la discussion à l'un des intermédiaires les plus accessibles et les plus connus entre la science, mais aussi certains types de désinformation, et le public, à savoir Google Scholar, également en réponse aux préoccupations légitimes selon lesquelles la discussion sur l'IA générative et la désinformation doit être plus nuancée et étayée empiriquement.
Google Scholar est un moteur de recherche académique facile à utiliser. Il est disponible gratuitement et son index est très complet. Il est également souvent présenté comme une source crédible de littérature universitaire et même recommandé dans les guides des bibliothèques, par les initiatives d'éducation aux médias et à l'information et par les vérificateurs de faits. Cependant, Google Scholar n'a pas la transparence et le respect des normes qui caractérisent habituellement les bases de données de citations. Au lieu de cela, Google Scholar utilise des robots automatisés, comme le moteur de recherche de Google, et les critères d'inclusion sont basés sur des normes essentiellement techniques, permettant à tout auteur individuel - avec ou sans affiliation scientifique - de télécharger (upload) des articles à indexer.
Il a été démontré que Google Scholar est susceptible d'être manipulé par des exploitations de citations et en donnant accès à de faux articles scientifiques. Une grande partie de l'index de Google Scholar est constituée de publications provenant de revues scientifiques établies ou d'autres formes de littérature savante dont la qualité est contrôlée. Cependant, l'index contient également une grande quantité de littérature grise, y compris des travaux d'étudiants, des documents de travail, des rapports, des serveurs de prépublication et des sites de réseaux universitaires, ainsi que des documents provenant de revues universitaires dites « douteuses », y compris des usines à articles (ou paper mills en anglais). L'interface de recherche n'offre pas la possibilité de filtrer les résultats de manière significative en fonction du type de matériel, du statut de la publication ou d'une forme de contrôle de la qualité, telle que la limitation de la recherche au matériel évalué par les pairs.
Les usines à articles renforcés par l'IA générative
Il s'agit de sociétés qui vendent de grandes quantités d’articles scientifiques frauduleux à des auteurs cherchant à augmenter leur nombre de publications pour obtenir une promotion ou un poste.
Les auteurs paient pour obtenir un article, généralement de mauvaise qualité, contenant de fausses données, des informations plagiées ou douteuses et parfois écrit par une intelligence artificielle. Ces « faux articles » peuvent ensuite être facilement publiés dans des revues prédatrices qui n’effectuent pas ou peu de révision par les pairs.
Depuis quelques temps, ces sociétés sont passées à la vitesse supérieure en corrompant des éditeurs de revues pour faire accepter leurs articles, comme le raconte Frederik Joelving de Retraction Watch dans un article publié dans Science en janvier 2024. Les paper mills paient des rédacteurs en chef pour qu’ils acceptent leurs articles rapidement ou pour placer leurs propres éditeurs ou reviewers dans les comités éditoriaux des journaux.
Le médecin de santé publique Hervé Maisonneuve, auteur du blog « Rédaction médicale », explique que ces entreprises connaissent très bien la codification des publications. « Les paper mills utilisent aussi des algorithmes d’écriture automatique, rapporte-t-il. Vous rentrez des chiffres dans un fichier Excel et le robot vous sort un article. » Pour illustrer en quoi l’intelligence artificielle (IA) fait énormément bouger les lignes, il rappelle l’histoire du « robot chercheur », auteur de faux articles et inventé par le programmeur Cyril Labbé. L’informaticien a aussi mis au point un système pour détecter les articles élaborés par des IA. Les algorithmes sont parfois trahis par des éléments très cocasses. Par exemple, dans un article consacré au cancer de la prostate, la moitié des patients sont des femmes.
Ces entreprises pratiquent souvent un autre type d’escroquerie, la fraude à la paternité, « dans laquelle certains ou tous les auteurs de l’article n’ont pas contribué au projet de recherche », confie Anna Abalkina, chercheuse à l’Université libre de Berlin. Ils proposent à un chercheur d’être ajouté comme co-auteur d’un article. Certains sont prêts à payer cher. Ces fausses collaborations révèlent parfois « l’entourloupe ». Parmi les articles de paper mills qu’elle a dévoilés, Anna Abalkina en désigne un dans lequel « un chercheur en médecine et un économiste écrivent ensemble un article sur le génie chimique ! »
Caractéristiques des articles falsifiés
Les articles falsifiés générés par GPT présentent plusieurs caractéristiques distinctives. Ils abordent fréquemment des sujets d’actualité et controversés, tels que le changement climatique, la santé publique et les technologies de l’information. Ces sujets sont particulièrement vulnérables à la désinformation en raison de leur complexité et de leur importance sociétale. Une analyse approfondie de ces articles révèle qu’ils contiennent souvent des phrases et des structures typiques des modèles de langage de grande taille (LLM) comme GPT. Par exemple, ils peuvent inclure des citations inventées, des références à des études inexistantes et des conclusions qui semblent plausibles mais qui ne sont pas fondées sur des données réelles.
Diffusion et accessibilité
La facilité avec laquelle ces articles falsifiés peuvent être trouvés sur Google Scholar est alarmante. Contrairement aux bases de données académiques traditionnelles qui appliquent des critères stricts de sélection et de révision par les pairs, Google Scholar indexe un large éventail de contenus, y compris des prépublications, des thèses et des rapports techniques. Cette approche inclusive, bien qu’utile pour l’accès à une grande variété de documents, ouvre également la porte à la diffusion de contenus de qualité douteuse. Les articles générés par GPT peuvent ainsi se retrouver aux côtés de recherches rigoureusement contrôlées, ce qui complique la tâche des chercheurs et des étudiants pour distinguer le vrai du faux.
Implications pour la confiance publique
La présence d’articles scientifiques falsifiés sur Google Scholar pose un risque sérieux pour la confiance du public dans la science. Les chercheurs, les étudiants et même les décideurs politiques s’appuient sur cette plateforme pour accéder à des informations fiables et à jour. La possibilité que des contenus apparemment scientifiques soient en réalité créés de manière trompeuse par des outils d’IA pourrait saper la base de la confiance dans les connaissances scientifiques. En outre, la citation de ces articles dans d’autres travaux de recherche pourrait propager des informations erronées et fausser les conclusions de nouvelles études.
Conséquences sociétales
Les implications sociétales de cette tendance sont profondes. La manipulation potentielle de la base de preuves de la société, en particulier dans des domaines politiquement controversés, est une préoccupation croissante. Par exemple, des articles falsifiés sur le changement climatique pourraient être utilisés pour semer le doute sur la réalité du réchauffement climatique, influençant ainsi les politiques publiques et les opinions des citoyens. De même, des articles sur la santé publique contenant des informations erronées pourraient avoir des conséquences graves sur la gestion des pandémies et la santé des populations.
Réactions et mesures à prendre
Face à cette menace, plusieurs mesures peuvent être envisagées pour préserver l’intégrité de la recherche scientifique. Tout d’abord, les plateformes académiques comme Google Scholar doivent renforcer leurs critères d’inclusion et mettre en place des mécanismes de détection des articles falsifiés. Cela pourrait inclure l’utilisation de technologies d’IA pour identifier les caractéristiques typiques des contenus générés par des modèles de langage. Ensuite, les chercheurs et les institutions académiques doivent être sensibilisés à ce problème et formés à la détection des articles falsifiés. Enfin, une collaboration internationale entre les chercheurs, les éditeurs et les plateformes académiques est essentielle pour développer des normes et des pratiques visant à protéger la communication scientifique.
Conclusion
La découverte d’articles scientifiques falsifiés par GPT sur Google Scholar souligne la nécessité d’une vigilance accrue et de mesures pour préserver l’intégrité de la communication scientifique. Les chercheurs et les plateformes académiques doivent collaborer pour développer des mécanismes de détection et de prévention efficaces afin de protéger la confiance du public dans la science. En fin de compte, il est crucial de trouver un équilibre entre l’accessibilité de l’information et la garantie de sa qualité et de sa fiabilité.
Sources : Harvard, Science
Et vous ?
Quels sont, selon vous, les principaux dangers de la prolifération des articles scientifiques falsifiés par des IA comme GPT ?
Comment pensez-vous que les plateformes académiques comme Google Scholar devraient réagir face à ce problème ?
Avez-vous déjà rencontré des articles scientifiques dont vous doutiez de l’authenticité ? Comment avez-vous réagi ?
Quelles mesures pourraient être mises en place pour améliorer la détection des articles falsifiés par IA ?
Pensez-vous que l’IA peut jouer un rôle positif dans la recherche scientifique malgré ces risques ? Si oui, comment ?
Comment les chercheurs et les institutions académiques peuvent-ils collaborer pour préserver l’intégrité de la recherche scientifique ?
Quels impacts à long terme cette situation pourrait-elle avoir sur la confiance du public dans la science ?
Quelles sont les responsabilités des développeurs d’IA dans la prévention de l’utilisation abusive de leurs technologies ?
La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique
Des chercheurs mettent en garde
La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique
Des chercheurs mettent en garde
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !