Les chercheurs sont avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte. Les éditeurs universitaires soulignent que l'évaluation par les pairs doit rester une tâche humaine, car les connaissances et l'expertise des pairs sont irremplaçables pour garantir l'intégrité et la qualité de la recherche. Cependant, malgré les avertissements, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, sous la pression des délais et de la charge de travail. Certains soutiennent que l'IA pourrait améliorer la productivité des chercheurs, mais d'autres soulignent le risque de dégradation du processus de recherche et de la confiance du public dans le monde universitaire.
Alors que l'année dernière a donné lieu à de nombreux discours et spéculations sur l'utilisation généralisée de grands modèles de langage (LLM) dans des secteurs aussi divers que l'éducation, les sciences et les médias, il a été jusqu'à présent impossible de mesurer précisément l'ampleur de cette utilisation ou d'évaluer la manière dont l'introduction de textes générés peut affecter les écosystèmes de l'information. Pour compliquer les choses, il est de plus en plus difficile de distinguer les exemples de textes générés par l'IA des contenus rédigés par l'homme.
La capacité humaine à discerner un texte généré par l'IA d'un contenu écrit par l'homme dépasse à peine celle d'un classificateur aléatoire, ce qui accroît le risque qu'un texte généré sans fondement puisse se faire passer pour un texte faisant autorité et fondé sur des preuves. Dans le domaine de la recherche scientifique, par exemple, des études ont montré que les résumés médicaux générés par ChatGPT peuvent fréquemment contourner les détecteurs d'IA et les experts. Dans les médias, une étude a identifié plus de 700 sites d'information non fiables générés par l'IA dans 15 langues, qui pourraient induire les internautes en erreur.
L'évaluation par les pairs dans l'ère de l'IA : étude de cas sur les conférences en IA
Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »
Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.
À NeurIPS, les chercheurs sont tenus de ne pas partager leurs soumissions sans autorisation préalable, et le code éthique de la Conférence internationale sur les représentations d'apprentissage (ICLR) stipule que les grands modèles de langage ne peuvent pas être considérés comme des auteurs légitimes. Les représentants de NeurIPS et de l'ICLR ont affirmé que cette politique s'applique à toute entité, y compris l'intelligence artificielle, et que la qualité d'auteur englobe à la fois les articles et les commentaires d'évaluation par les pairs.
Un porte-parole de Springer Nature, une société d'édition universitaire réputée pour sa revue de premier plan, Nature, a souligné que l'évaluation de la recherche doit être confiée à des experts humains, car leur expertise est essentielle pour garantir l'intégrité et la qualité du dossier scientifique. Le porte-parole a ajouté que malgré les avancées rapides de l'intelligence artificielle, les outils générateurs peuvent manquer de connaissances actualisées et produire des informations erronées, biaisées ou non pertinentes.
Malgré le fait que le texte généré peut être indiscernable au cas par cas du contenu écrit par des humains, les études de l'utilisation du LLM à grande échelle trouvent des tendances au niveau du corpus qui contrastent avec le comportement humain à grande échelle. Par exemple, la cohérence accrue de la sortie LLM peut amplifier les biais au niveau du corpus d'une manière qui est trop subtile pour être saisie en examinant les cas individuels d'utilisation.
Les avancées récentes dans les grands modèles de langage ont conduit les chercheurs à les utiliser de plus...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.