Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots

Le 8 juillet 2025 à 19:02, par Alex

25PARTAGES

Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots.

Une étude a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Avec environ 1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.

Il y a de fortes chances que vous ayez rencontré, sans le savoir, un contenu en ligne attrayant créé, entièrement ou en partie, par une version quelconque d'un grand modèle de langage (LLM). À mesure que ces ressources d'IA, telles que ChatGPT et Google Gemini, deviennent plus efficaces pour générer des écrits de qualité quasi humaine, il devient plus difficile de distinguer les écrits purement humains des contenus qui ont été soit modifiés, soit entièrement générés par des LLM.

Dans le domaine de la science, un rapport de l’université du Surrey a révélé que l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces "usines à papier", profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes.

Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur). Les chercheurs ont donc averti que les industries de l'IA sont en train de submerger la science d'études inutiles.

Récemment, une nouvelle étude a confirmé cette situation. Pour faire la lumière sur l'ampleur du contenu des LLM dans les écrits universitaires, une équipe de chercheurs américains et allemands a analysé plus de 15 millions de résumés biomédicaux sur PubMed afin de déterminer si les LLM ont eu un impact détectable sur le choix de mots spécifiques dans les articles de revues.

Leur enquête a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Depuis la publication de ChatGPT il y a moins de trois ans, la prévalence de l'intelligence artificielle (IA) et du contenu LLM sur le web a explosé, suscitant des inquiétudes quant à l'exactitude et à l'intégrité de certaines recherches.

Nombre de mots en trop par an.

Les efforts passés pour quantifier l'augmentation des LLM dans les écrits académiques ont toutefois été limités par leur dépendance à l'égard d'ensembles de textes générés par des humains et des LLM. Cette configuration, notent les auteurs, "...peut introduire des biais, car elle nécessite des hypothèses sur les modèles que les scientifiques utilisent pour leur écriture assistée par LLM, et sur la manière exacte dont ils les invitent".

Afin d'éviter ces limitations, les auteurs de la dernière étude ont examiné les changements dans l'utilisation excessive de certains mots avant et après la publication de ChatGPT afin de découvrir des tendances révélatrices. Les chercheurs se sont inspirés de recherches antérieures sur la santé publique concernant la pandémie COVID-19, qui ont permis de déduire l'impact de la pandémie COVID-19 sur la mortalité en comparant la surmortalité avant et après la pandémie.

En appliquant la même approche "avant-après", la nouvelle étude a analysé les schémas d'utilisation excessive des mots avant et après l'apparition des LLM. Les chercheurs ont constaté qu'après la publication des MAJ, l'utilisation excessive de "mots de contenu" a cédé la place à une utilisation excessive de mots "stylistiques et fleuris", tels que "showcasing", "pivotal" et "grappling".

En attribuant manuellement des parties du discours à chaque mot excédentaire, les auteurs ont déterminé qu'avant 2024, 79,2 % des choix de mots excédentaires étaient des noms. Au cours de l'année 2024, il y a eu un changement clairement identifiable. 66 % des choix de mots excédentaires étaient des verbes et 14 % des adjectifs. L'équipe a également identifié des différences notables dans l'utilisation du LLM entre les domaines de recherche, les pays et les lieux.

Pour rappel, en 2024, les chercheurs ont été avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.

La combinaison de mots de style en excès permet d'obtenir un écart de fréquence plus important.

Approfondissement de la rédaction assistée par le LLM dans les publications biomédicales par le biais d'un excès de vocabulaire

Envoyé par Résumé de l'étude

Les grands modèles de langage (LLM) comme ChatGPT peuvent générer et réviser des textes avec des performances humaines. Ces modèles présentent des limites évidentes, peuvent produire des informations inexactes et renforcer les préjugés existants. Pourtant, de nombreux scientifiques les utilisent pour leurs écrits scientifiques. Mais quelle est l'ampleur de l'utilisation du LLM dans la littérature académique ? Pour répondre à cette question dans le domaine de la recherche biomédicale, nous présentons une approche impartiale et à grande échelle : Nous étudions les changements de vocabulaire dans plus de 15 millions de résumés biomédicaux de 2010 à 2024 indexés par PubMed et montrons comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style. Cette analyse de l'excès de mots suggère qu'au moins 13,5 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, atteignant 40 % pour certains sous-corpus. Nous montrons que les LLM ont eu un impact sans précédent sur l'écriture scientifique dans la recherche biomédicale, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de COVID.

Présentation de l'étude

Lors de l'étude, les chercheurs ont exploité l'usage excessif des mots pour montrer comment les LLM ont affecté la rédaction scientifique dans la recherche biomédicale. Ils ont constaté que l'effet était sans précédent en termes de qualité et de quantité : Des centaines de mots ont brusquement augmenté leur fréquence après que les LLM de type ChatGPT sont devenus disponibles. Contrairement aux changements précédents dans la popularité des mots, les mots excédentaires de 2023-2024 n'étaient pas des noms liés au contenu mais plutôt des verbes et des adjectifs influençant le style que les LLM préfèrent.

L'analyse est effectuée au niveau du corpus et ne peut pas identifier les résumés individuels qui peuvent avoir été traités par un LLM. Néanmoins, les exemples suivants, tirés de trois résumés réels de 2023, illustrent le langage fleuri de type LLM :

1) En examinant méticuleusement le réseau complexe reliant [...] et [...], ce chapitre complet examine en profondeur leur implication en tant que facteurs de risque significatifs pour [...].
2) Une compréhension approfondie de l'interaction complexe entre [...] et [...] est essentielle à l'élaboration de stratégies thérapeutiques efficaces.
3) Dans un premier temps, nous nous penchons sur les subtilités de [...], en soulignant son caractère indispensable dans la physiologie cellulaire, le labyrinthe enzymatique qui régit son flux, et les mécanismes pivots de [...].

L'analyse de la fréquence excessive de ces mots de style préférés par les LLM suggère qu'au moins 13,5 % des 2024 résumés PubMed ont été traités avec des LLM. Avec ~1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là. Il ne s'agit que d'une limite inférieure : Les résumés n'utilisant aucun des mots marqueurs LLM ne contribuent pas aux estimations, de sorte que la fraction réelle des résumés traités par LLM est probablement plus élevée.

Fréquences des résumés PubMed contenant plusieurs mots exemples.

Interprétation et limites

La limite inférieure estimée sur l'utilisation du LLM varie de moins de 5% à plus de 40% dans différents domaines de recherche indexés par PubMed, pays d'affiliation et revues. Cette hétérogénéité pourrait correspondre à des différences réelles dans l'adoption du LLM. Par exemple, la limite inférieure élevée de l'utilisation du LLM dans les domaines informatiques (20 %) pourrait être due au fait que les chercheurs en informatique sont plus familiers avec la technologie LLM et plus disposés à l'adopter. Dans les pays non anglophones, les LLM peuvent aider les auteurs à éditer des textes en anglais, ce qui pourrait justifier leur utilisation intensive. Enfin, les auteurs qui publient dans des revues dont les processus d'examen sont accélérés et/ou simplifiés pourraient être attirés par les LLM pour rédiger des articles à faible effort.

Cependant, l'hétérogénéité des limites inférieures pourrait également indiquer d'autres facteurs au-delà des différences réelles dans l'adoption du LLM. Tout d'abord, cela pourrait mettre en évidence des différences non négligeables dans la façon dont les auteurs de différents milieux linguistiques censurent les suggestions des assistants d'écriture, rendant ainsi l'utilisation des LLM non détectable pour les approches basées sur les mots. Il est possible que les locuteurs natifs et non natifs de l'anglais utilisent les LLM aussi souvent, mais les locuteurs natifs peuvent être plus à même de remarquer et d'éliminer activement les mots de style non naturels des sorties LLM. Cette méthode ne serait pas en mesure de détecter la fréquence accrue de l'utilisation de ces LLM plus avancés.

Deuxièmement, les délais de publication dans les domaines informatiques sont souvent plus courts que dans de nombreux domaines biomédicaux ou cliniques, ce qui signifie que toute augmentation potentielle de l'utilisation du LLM peut être détectée plus tôt dans les revues informatiques. Troisièmement, il en va de même pour les revues et les éditeurs dont les délais d'exécution sont plus rapides que ceux des revues de haut prestige ayant fait l'objet d'un examen approfondi. La méthode peut facilement être utilisée pour réévaluer ces résultats après quelques cycles de publication dans tous les domaines et dans toutes les revues.

Enfin, si cet approche permet de détecter des changements lexicaux inattendus, elle ne permet pas de distinguer les différentes causes de ces changements, comme les multiples sujets émergents ou les multiples changements de style d'écriture émergents. Par exemple, l'approche ne peut pas distinguer l'augmentation de la fréquence des mots due à l'utilisation directe des LLM de l'augmentation de la fréquence des mots due à l'adoption de mots préférés par les LLM et à leur emprunt pour leur propre écriture. Pour la langue parlée, il existe des preuves émergentes d'une telle influence des LLM sur l'utilisation de la langue humaine. Cependant, cet effet est beaucoup plus petit et beaucoup plus lent.

Estimation des écarts de fréquence pour différents sous-corporation.

Implications et politiques

Quelles sont les implications de cette révolution en cours dans la rédaction scientifique ? Les scientifiques ont recours à la rédaction assistée par des LLM parce que ces derniers peuvent améliorer la grammaire, la rhétorique et la lisibilité générale de leurs textes, aider à la traduction en anglais et générer rapidement des résumés. Cependant, les LLM sont tristement célèbres pour inventer des références, fournir des résumés inexacts et faire de fausses déclarations qui semblent faire autorité et être convaincantes. Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés de leurs propres travaux assistés par des LLM, il peut être plus difficile de repérer les erreurs dans les revues de littérature ou les sections de discussion générées par des LLM.

De plus, les LLM peuvent imiter les biais et autres déficiences de leurs données de formation ou même carrément plagier. Cela rend les résultats des LLM moins diversifiés et moins nouveaux que les textes écrits par des humains . Une telle homogénéisation peut dégrader la qualité de l'écriture scientifique. Par exemple, toutes les introductions générées par le LLM sur un certain sujet peuvent se ressembler et contenir le même ensemble d'idées et de références, manquant ainsi des innovations et exacerbant l'injustice de la citation. Pire encore, il est probable que des acteurs malveillants tels que les usines à papier utilisent les LLM pour produire de fausses publications.

Cet étude montre que l'utilisation des LLM pour l'écriture scientifique est en augmentation malgré ces limitations substantielles. Comment la communauté universitaire doit-elle faire face à cette évolution ? Certains ont suggéré d'utiliser des LLM améliorés par la recherche qui fournissent des faits vérifiables provenant de sources fiables ou de laisser l'utilisateur fournir tous les faits pertinents au LLM pour protéger la littérature scientifique de l'accumulation d'inexactitudes subtiles.

D'autres pensent que pour certaines tâches telles que l'examen par les pairs, les LLM sont mal adaptés et ne devraient pas être utilisés du tout. En conséquence, les éditeurs et les agences de financement ont mis en place diverses politiques, interdisant les LLM dans l'évaluation par les pairs, en tant que coauteurs, ou en tant que ressources non divulguées de toute sorte. Des analyses basées sur des données et impartiales peuvent être utiles pour vérifier si ces politiques sont ignorées ou respectées dans la pratique.

Envoyé par Conclusion de l'étude

En conclusion, notre travail a montré que l'effet de l'utilisation des LLM sur l'écriture scientifique est vraiment sans précédent et dépasse même les changements marqués dans le vocabulaire induits par la pandémie de COVID-19. Cet effet sera probablement encore plus prononcé à l'avenir, étant donné que l'on peut analyser plus de cycles de publication et que l'adoption des LLM est susceptible d'augmenter. En même temps, l'utilisation des LLM peut être bien dissimulée et difficile à détecter, de sorte que l'ampleur réelle de leur adoption est probablement déjà plus élevée que ce que nous avons mesuré. Cette tendance appelle à une réévaluation des politiques et réglementations actuelles concernant l'utilisation des LLM pour la science. Notre analyse peut alimenter le débat nécessaire sur les politiques en matière de LLM en fournissant une méthode de mesure de l'utilisation des LLM qui est nécessaire de toute urgence. Notre approche de l'excès de mots pourrait aider à suivre l'utilisation future des LLM, y compris les cas d'utilisation scientifiques (demandes de subvention et examen par les pairs) et non scientifiques (articles de presse, médias sociaux et prose). Nous espérons que les travaux futurs approfondiront méticuleusement le suivi de l'utilisation des LLM de manière plus précise et évalueront quels changements politiques sont cruciaux pour relever les défis complexes posés par l'augmentation des LLM dans l'édition scientifique.

Source : Delving into LLM-assisted writing in biomedical publications through excess vocabulary

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique. Des chercheurs mettent en garde

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA, environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

L'IA est-elle le nouveau chercheur scientifique ? Ce n'est pas le cas, selon une étude où l'IA générative ne s'est montrée compétente qu'à certaines étapes de la rédaction d'article de recherche

L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux dont plusieurs ont été générés par IA. Comment les algorithmes ont contribué à la fraude scientifique

Vous avez lu gratuitement 3 238 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots

Identifiant
Mot de passe

Mot de passe oublié ?