Les grands modèles de langage comme ChatGPT sont utilisés par les scientifiques pour leurs écrits, mais avec des limites évidentes

Produisant des informations inexactes et renforçant les biais existants

Le 24 juin 2024 à 11:26, par Jade Emy

63PARTAGES

Selon une nouvelle étude, l'utilisation des grands modèles de langage (LLM) comme ChatGPT se répand dans la littérature académique, et sera encore plus importante à l'avenir. Cette tendance appelle à une réévaluation des politiques et réglementations actuelles concernant l'utilisation des LLM pour la science.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel, comme la génération de texte, une forme d'IA générative. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte. Ces modèles acquièrent des connaissances sur la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

Les grands modèles de langage (LLM) récents peuvent générer et réviser des textes avec des performances de niveau humain, et ont été largement commercialisés dans des systèmes tels que ChatGPT. Ces modèles présentent des limites évidentes : ils peuvent produire des informations inexactes, renforcer les préjugés existants et être facilement utilisés à mauvais escient. Pourtant, de nombreux scientifiques les utilisent pour faciliter la rédaction de leurs travaux scientifiques. Dans quelle mesure l'utilisation de LLM est-elle répandue dans la littérature académique ?

Pour répondre à cette question, des chercheurs ont étudié les changements de vocabulaire dans 14 millions de résumés PubMed entre 2010 et 2024, et montrent comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style. L'analyse basée sur l'utilisation de mots excédentaires suggère qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, et atteint 30 % pour certains sous-corpus de PubMed. L'étude montre également que l'apparition d'assistants de rédaction basés sur les LLM a eu un impact sans précédent sur la littérature scientifique, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de Covid.

Méthodologie de l'étude

Pour l'étude, les chercheurs ont utilisé l'excès d'utilisation des mots comme une méthode fondée sur des données et des principes pour montrer comment les LLM ont affecté la rédaction scientifique. Ils ont constaté que l'effet était sans précédent en termes de qualité et de quantité : des centaines de mots ont brusquement augmenté leur fréquence après que le ChatGPT soit devenu disponible. Contrairement aux changements précédents dans la popularité des mots, les mots excédentaires de 2023-24 n'étaient pas des noms liés au contenu, mais plutôt des verbes et des adjectifs affectant le style que les LLM de type ChatGPT préfèrent.

Les exemples suivants, tirés de trois résumés réels de 2023, illustrent ce langage fleuri de type ChatGPT :

En explorant méticuleusement le réseau complexe reliant [...] et [...], ce chapitre exhaustif permet d'approfondir leur implication en tant que facteurs de risque significatifs pour [...].
Une compréhension approfondie de l'interaction complexe entre [...] et [...] est essentielle à l'élaboration de stratégies thérapeutiques efficaces.
Dans un premier temps, nous nous penchons sur les subtilités de [...], en soulignant son caractère indispensable dans la physiologie cellulaire, le labyrinthe enzymatique qui régit son flux et les mécanismes pivots de [...].

Résultats

L'analyse de la fréquence excessive de ces mots de style préférés par les LLM suggère qu'au moins 10 % des 2024 résumés de PubMed ont été traités avec des LLM. Étant donné que 1,5 million d'articles sont actuellement indexés dans PubMed chaque année, cela signifie que les LLM contribuent à la rédaction d'au moins 150 000 articles par an. Cette estimation est basée sur des listes émergentes de mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.

Il est important de noter qu'il ne s'agit que d'une limite inférieure : les résumés n'utilisant aucun des mots marqueurs LLM ne sont pas inclus dans les estimations, de sorte que la fraction réelle des résumés traités par LLM est probablement beaucoup plus élevée. Cette estimation de la limite inférieure de l'utilisation du LLM varie de moins de 5 % à plus de 30 % dans différents domaines académiques, pays d'affiliation et revues. Cette hétérogénéité pourrait correspondre à des différences réelles dans l'adoption du LLM.

Par exemple, la limite inférieure élevée de l'utilisation du LLM dans les domaines informatiques (20 %) pourrait être due au fait que les chercheurs en informatique sont plus familiers avec la technologie LLM et plus disposés à l'adopter. Dans les pays non anglophones, les LLM peuvent en effet aider les non-natifs à éditer des textes en anglais, ce qui pourrait justifier leur utilisation intensive. Enfin, les auteurs qui publient dans des revues dont les processus de révision sont accélérés et/ou simplifiés pourraient s'emparer des LLM pour rédiger des articles à faible effort.

Cependant, l'hétérogénéité des limites inférieures pourrait également indiquer d'autres facteurs au-delà des différences réelles dans l'adoption du LLM. Tout d'abord, cela pourrait mettre en évidence des différences non triviales dans la façon dont les auteurs de différents milieux linguistiques censurent les suggestions des assistants d'écriture, rendant ainsi l'utilisation des LLM non détectable pour les approches basées sur les mots. Il est possible que les locuteurs natifs et non natifs de l'anglais utilisent les LLM aussi souvent, mais les locuteurs natifs peuvent être plus aptes à remarquer et à supprimer activement les mots de style non naturels des sorties LLM. La méthode utilisée par l'étude ne serait pas en mesure de détecter la fréquence accrue d'une telle utilisation déguisée de LLM.

Deuxièmement, les délais de publication dans les domaines informatiques sont souvent plus courts que dans de nombreux domaines biomédicaux ou cliniques, ce qui signifie que toute augmentation potentielle de l'utilisation du LLM peut être détectée plus tôt dans les revues informatiques. Troisièmement, il en va de même pour les revues et les éditeurs dont les délais d'exécution sont plus courts que ceux des revues de haut prestige ayant fait l'objet d'un examen approfondi.

Les chercheurs commentent :

Notre méthode peut être facilement utilisée pour réévaluer ces résultats après quelques cycles de publication dans tous les domaines et dans toutes les revues. Nous nous attendons à ce que les limites inférieures documentées augmentent avec ces fenêtres d'observation plus longues. Compte tenu de ces explications potentielles de l'hétérogénéité de la limite inférieure de l'utilisation du LLM pour l'édition scientifique, nos résultats indiquent une utilisation répandue dans la plupart des domaines, des pays et des revues, y compris les plus prestigieuses.

Nous soutenons que l'utilisation réelle du LLM dans l'écriture académique peut être plus proche des limites inférieures les plus élevées que nous avons observées, car il peut s'agir de corpus où l'utilisation du LLM est la moins déguisée et la plus facile à détecter. Ces estimations se situent autour de 30 %, ce qui est conforme aux enquêtes récentes sur l'utilisation des LLM par les chercheurs pour la rédaction de manuscrits.

Comparaison avec d'autre études similaires

Les résultats montrent comment ces comportements autodéclarés se traduisent par une utilisation réelle des LLM dans les publications finales. Selon les chercheurs, ces résultats vont au-delà d'autres études sur la détection d'empreintes de LLM dans l'écriture académique.

Une étude de 2024 a décrit une augmentation de deux fois la fréquence des mots complexes et méticuleux en 2023, tandis qu'une autre a identifié pivotal, complexe, mise en valeur, et domaine comme les mots préférés de LLM basés sur un corpus de texte généré par LLM. Selon les chercheurs, l'étude est la première à effectuer une recherche systématique de mots marqueurs LLM basés sur l'usage excessif dans des textes scientifiques publiés. Ils ont trouvé 280 mots de style avec des fréquences très élevées.

Certaines études ont signalé des différences dans l'utilisation estimée du LLM entre les pays anglophones et non anglophones, les domaines académiques et les lieux de publication. Par exemple, une étude a estimé que la fraction d'articles assistés par LLM au début de l'année 2024 varie entre 7% pour les articles du portefeuille Nature et 17% pour les preprints d'informatique. Il est important de noter que cette nouvelle analyse est basée sur 5 à 200 fois plus d'articles par an que ces travaux antérieurs, ce qui a permis d'étudier l'adoption du LLM avec une plus grande puissance statistique et à travers une plus grande diversité de pays, de domaines et de revues.

En outre, toutes ces études antérieures se sont appuyées sur des textes scientifiques générés par le LLM et écrits par des humains, sans garantie que le corpus de textes générés par le LLM soit représentatif de tous les cas d'utilisation du LLM dans la pratique académique réelle. Cette nouvelle analyse évite cette limitation en détectant les empreintes LLM émergentes directement à partir des résumés publiés.

Les chercheurs ajoutent :

De plus, notre approche n'est pas limitée à l'utilisation du LLM et peut être appliquée aux résumés des années précédentes. Cela nous a permis de placer les changements induits par le LLM dans l'écriture scientifique dans un contexte historique et de conclure que ces changements sont sans précédent.

Implications de l'étude

Quelles sont les implications de cette révolution en cours dans la rédaction scientifique ? Les scientifiques ont recours à la rédaction assistée par LLM car les LLM peuvent améliorer la grammaire, la rhétorique et la lisibilité générale de leurs textes, aider à la traduction en anglais et générer rapidement des résumés. Cependant, les LLM sont tristement célèbres pour inventer des références, fournir des résumés inexacts et faire de fausses affirmations qui semblent faire autorité et être convaincantes. Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés de leurs propres travaux assistés par des LLM, il peut être plus difficile de repérer les erreurs dans les revues de littérature ou les sections de discussion générées par des LLM.

De plus, les LLM peuvent imiter les biais et autres déficiences de leurs données de formation, ou même carrément plagier. Cela rend...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les grands modèles de langage comme ChatGPT sont utilisés par les scientifiques pour leurs écrits, mais avec des limites évidentes

Produisant des informations inexactes et renforçant les biais existants

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les grands modèles de langage comme ChatGPT sont utilisés par les scientifiques pour leurs écrits, mais avec des limites évidentes Produisant des informations inexactes et renforçant les biais existants

Les grands modèles de langage comme ChatGPT sont utilisés par les scientifiques pour leurs écrits, mais avec des limites évidentes

Produisant des informations inexactes et renforçant les biais existants