
Une étude a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Avec environ 1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.
Il y a de fortes chances que vous ayez rencontré, sans le savoir, un contenu en ligne attrayant créé, entièrement ou en partie, par une version quelconque d'un grand modèle de langage (LLM). À mesure que ces ressources d'IA, telles que ChatGPT et Google Gemini, deviennent plus efficaces pour générer des écrits de qualité quasi humaine, il devient plus difficile de distinguer les écrits purement humains des contenus qui ont été soit modifiés, soit entièrement générés par des LLM.
Dans le domaine de la science, un rapport de l’université du Surrey a révélé que l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces "usines à papier", profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes.
Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur). Les chercheurs ont donc averti que les industries de l'IA sont en train de submerger la science d'études inutiles.
Récemment, une nouvelle étude a confirmé cette situation. Pour faire la lumière sur l'ampleur du contenu des LLM dans les écrits universitaires, une équipe de chercheurs américains et allemands a analysé plus de 15 millions de résumés biomédicaux sur PubMed afin de déterminer si les LLM ont eu un impact détectable sur le choix de mots spécifiques dans les articles de revues.
Leur enquête a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Depuis la publication de ChatGPT il y a moins de trois ans, la prévalence de l'intelligence artificielle (IA) et du contenu LLM sur le web a explosé, suscitant des inquiétudes quant à l'exactitude et à l'intégrité de certaines recherches.
Nombre de mots en trop par an.
Les efforts passés pour quantifier l'augmentation des LLM dans les écrits académiques ont toutefois été limités par leur dépendance à l'égard d'ensembles de textes générés par des humains et des LLM. Cette configuration, notent les auteurs, "...peut introduire des biais, car elle nécessite des hypothèses sur les modèles que les scientifiques utilisent pour leur écriture assistée par LLM, et sur la manière exacte dont ils les invitent".
Afin d'éviter ces limitations, les auteurs de la dernière étude ont examiné les changements dans l'utilisation excessive de certains mots avant et après la publication de ChatGPT afin de découvrir des tendances révélatrices. Les chercheurs se sont inspirés de recherches antérieures sur la santé publique concernant la pandémie COVID-19, qui ont permis de déduire l'impact de la pandémie COVID-19 sur la mortalité en comparant la surmortalité avant et après la pandémie.
En appliquant la même approche "avant-après", la nouvelle étude a analysé les schémas d'utilisation excessive des mots avant et après l'apparition des LLM. Les chercheurs ont constaté qu'après la publication des MAJ, l'utilisation excessive de "mots de contenu" a cédé la place à une utilisation excessive de mots "stylistiques et fleuris", tels que "showcasing", "pivotal" et "grappling".
En attribuant manuellement des parties du discours à chaque mot excédentaire, les auteurs ont déterminé qu'avant 2024, 79,2 % des choix de mots excédentaires étaient des noms. Au cours de l'année 2024, il y a eu un changement clairement identifiable. 66 % des choix de mots excédentaires étaient des verbes et 14 % des adjectifs. L'équipe a également identifié des différences notables dans l'utilisation du LLM entre les domaines de recherche, les pays et les lieux.
Pour rappel, en 2024, les chercheurs ont été avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.
La combinaison de mots de style en excès permet d'obtenir un écart de fréquence plus important.
Approfondissement de la rédaction assistée par le LLM dans les publications biomédicales par le biais d'un excès de vocabulaire

Lors de l'étude, les chercheurs ont exploité l'usage excessif des mots pour montrer comment les LLM ont affecté la rédaction scientifique dans la recherche biomédicale. Ils ont constaté que l'effet était sans précédent en termes de qualité et de quantité : Des centaines de mots ont brusquement augmenté leur fréquence après que les LLM de type ChatGPT sont devenus disponibles. Contrairement aux changements précédents dans la popularité des mots, les mots excédentaires de 2023-2024 n'étaient pas des noms liés au contenu mais plutôt des verbes et des adjectifs influençant le style que les LLM préfèrent.
L'analyse est effectuée au niveau du corpus et ne peut pas identifier les résumés individuels qui peuvent avoir été traités par un LLM. Néanmoins, les exemples suivants, tirés de trois résumés réels de 2023, illustrent le langage fleuri de type LLM :
- 1) En examinant méticuleusement le réseau complexe reliant [...] et [...], ce chapitre complet examine en profondeur leur implication en tant que facteurs de risque significatifs pour [...].
- 2) Une compréhension approfondie de l'interaction complexe entre [...] et [...] est essentielle à l'élaboration de stratégies thérapeutiques efficaces.
- 3) Dans un premier temps, nous nous penchons sur les subtilités de [...], en soulignant son caractère indispensable dans la physiologie cellulaire, le labyrinthe enzymatique qui régit son flux, et les mécanismes pivots de [...].
L'analyse de la fréquence excessive de ces mots de style préférés par les LLM suggère qu'au moins 13,5 % des 2024 résumés PubMed ont été traités avec des LLM. Avec ~1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là. Il ne s'agit que d'une limite inférieure : Les résumés n'utilisant aucun des mots marqueurs LLM ne contribuent pas aux estimations, de sorte que la fraction réelle des résumés traités par LLM est probablement plus élevée.
Fréquences des résumés PubMed contenant plusieurs mots exemples.
Interprétation et limites
La limite inférieure estimée sur l'utilisation du LLM varie de moins de 5% à plus de 40% dans différents domaines de recherche indexés par PubMed, pays d'affiliation et revues. Cette hétérogénéité pourrait correspondre à des différences réelles dans l'adoption du LLM. Par exemple, la limite inférieure élevée de l'utilisation du LLM dans les domaines informatiques (20 %) pourrait être due au fait que les chercheurs en informatique sont plus familiers avec la technologie LLM et plus disposés à l'adopter. Dans les pays non anglophones, les LLM peuvent aider les auteurs à éditer des textes en anglais, ce qui pourrait justifier leur utilisation intensive. Enfin, les auteurs qui publient dans des revues dont les processus d'examen sont accélérés et/ou simplifiés pourraient être attirés par les LLM pour rédiger des articles à faible effort.
Cependant, l'hétérogénéité des limites inférieures pourrait également indiquer d'autres facteurs au-delà des différences réelles dans l'adoption du LLM. Tout d'abord, cela pourrait mettre en évidence des différences non négligeables dans la façon dont les auteurs de différents milieux linguistiques censurent les suggestions des assistants d'écriture, rendant ainsi l'utilisation des LLM non détectable pour les approches basées sur les mots. Il est possible que les locuteurs natifs et non natifs de l'anglais utilisent les LLM aussi souvent, mais les locuteurs natifs peuvent être plus à même de remarquer et d'éliminer activement les mots de style non naturels des sorties LLM. Cette méthode ne serait pas en mesure de détecter la fréquence accrue de l'utilisation de ces LLM plus avancés.
Deuxièmement, les délais de publication dans les domaines informatiques sont souvent plus courts que dans de nombreux domaines biomédicaux ou cliniques, ce qui signifie que toute augmentation potentielle de l'utilisation du LLM peut être détectée plus tôt dans les revues informatiques. Troisièmement, il en va de même pour les revues et les éditeurs dont les délais d'exécution sont plus rapides que ceux des revues de haut prestige ayant fait l'objet d'un examen approfondi. La méthode peut facilement être utilisée pour réévaluer ces résultats après quelques cycles de publication dans tous les domaines et dans toutes les revues.
Enfin, si cet approche permet de détecter des changements lexicaux inattendus, elle ne permet pas de distinguer les différentes causes de ces changements, comme les multiples sujets émergents ou les multiples changements de style d'écriture émergents. Par exemple, l'approche ne peut pas distinguer l'augmentation de la fréquence des mots due à l'utilisation directe des LLM de l'augmentation de la fréquence des mots due à l'adoption de mots préférés par les LLM et à leur emprunt pour leur propre écriture. Pour la langue parlée, il existe des preuves émergentes d'une telle influence des LLM sur l'utilisation de la langue humaine. Cependant, cet effet est beaucoup plus petit et beaucoup plus lent.
Estimation des écarts de fréquence pour différents sous-corporation.
Implications et politiques
Quelles sont les implications de cette révolution en cours dans la rédaction scientifique ? Les scientifiques ont recours à la rédaction assistée par des LLM parce que ces derniers peuvent améliorer la grammaire, la rhétorique et la lisibilité générale de leurs textes, aider à la traduction en anglais et générer rapidement des résumés. Cependant, les LLM sont tristement célèbres pour inventer des références, fournir des résumés inexacts et faire de fausses déclarations qui semblent faire autorité et être convaincantes. Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés de leurs propres travaux assistés par des LLM, il peut être plus difficile de repérer les erreurs dans les revues de littérature ou les sections de discussion générées par des LLM.
De plus, les LLM peuvent imiter les biais et autres déficiences de leurs données de formation ou même carrément plagier. Cela rend les résultats des LLM moins diversifiés et moins nouveaux que les textes écrits par des humains . Une telle homogénéisation peut dégrader la qualité de l'écriture scientifique. Par exemple, toutes les introductions générées par le LLM sur un certain sujet peuvent se ressembler et contenir le même ensemble d'idées et de références, manquant ainsi des innovations et exacerbant l'injustice de la citation. Pire encore, il est probable que des acteurs malveillants tels que les usines à papier utilisent les LLM pour produire de fausses publications.
Cet étude montre que l'utilisation des LLM pour l'écriture scientifique est en augmentation malgré ces limitations substantielles. Comment la communauté universitaire doit-elle faire face à cette évolution ? Certains ont suggéré d'utiliser des LLM améliorés par la recherche qui fournissent des faits vérifiables provenant de sources fiables ou de laisser l'utilisateur fournir tous les faits pertinents au LLM pour protéger la littérature scientifique de l'accumulation d'inexactitudes subtiles.
D'autres pensent que pour certaines tâches telles que l'examen par les pairs, les LLM sont mal adaptés et ne devraient pas être utilisés du tout. En conséquence, les éditeurs et les agences de financement ont mis en place diverses politiques, interdisant les LLM dans l'évaluation par les pairs, en tant que coauteurs, ou en tant que ressources non divulguées de toute sorte. Des analyses basées sur des données et impartiales peuvent être utiles pour vérifier si ces politiques sont ignorées ou respectées dans la pratique.

Et vous ?


Voir aussi :




Vous avez lu gratuitement 27 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.