Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires,

Mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs

Le 9 mai 2024 à 13:04, par Bruno

33PARTAGES

Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires,
mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs

Les chercheurs sont avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.

Les éditeurs universitaires soulignent que l'évaluation par les pairs doit rester une tâche humaine, car les connaissances et l'expertise des pairs sont irremplaçables pour garantir l'intégrité et la qualité de la recherche. Cependant, malgré les avertissements, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, sous la pression des délais et de la charge de travail. Certains soutiennent que l'IA pourrait améliorer la productivité des chercheurs, mais d'autres soulignent le risque de dégradation du processus de recherche et de la confiance du public dans le monde universitaire.

Alors que l'année dernière a donné lieu à de nombreux discours et spéculations sur l'utilisation généralisée de grands modèles de langage (LLM) dans des secteurs aussi divers que l'éducation, les sciences et les médias, il a été jusqu'à présent impossible de mesurer précisément l'ampleur de cette utilisation ou d'évaluer la manière dont l'introduction de textes générés peut affecter les écosystèmes de l'information. Pour compliquer les choses, il est de plus en plus difficile de distinguer les exemples de textes générés par l'IA des contenus rédigés par l'homme.

La capacité humaine à discerner un texte généré par l'IA d'un contenu écrit par l'homme dépasse à peine celle d'un classificateur aléatoire, ce qui accroît le risque qu'un texte généré sans fondement puisse se faire passer pour un texte faisant autorité et fondé sur des preuves. Dans le domaine de la recherche scientifique, par exemple, des études ont montré que les résumés médicaux générés par ChatGPT peuvent fréquemment contourner les détecteurs d'IA et les experts. Dans les médias, une étude a identifié plus de 700 sites d'information non fiables générés par l'IA dans 15 langues, qui pourraient induire les internautes en erreur.

L'évaluation par les pairs dans l'ère de l'IA : étude de cas sur les conférences en IA

Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »

Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.

À NeurIPS, les chercheurs sont tenus de ne pas partager leurs soumissions sans autorisation préalable, et le code éthique de la Conférence internationale sur les représentations d'apprentissage (ICLR) stipule que les grands modèles de langage ne peuvent pas être considérés comme des auteurs légitimes. Les représentants de NeurIPS et de l'ICLR ont affirmé que cette politique s'applique à toute entité, y compris l'intelligence artificielle, et que la qualité d'auteur englobe à la fois les articles et les commentaires d'évaluation par les pairs.

Un porte-parole de Springer Nature, une société d'édition universitaire réputée pour sa revue de premier plan, Nature, a souligné que l'évaluation de la recherche doit être confiée à des experts humains, car leur expertise est essentielle pour garantir l'intégrité et la qualité du dossier scientifique. Le porte-parole a ajouté que malgré les avancées rapides de l'intelligence artificielle, les outils générateurs peuvent manquer de connaissances actualisées et produire des informations erronées, biaisées ou non pertinentes.

Malgré le fait que le texte généré peut être indiscernable au cas par cas du contenu écrit par des humains, les études de l'utilisation du LLM à grande échelle trouvent des tendances au niveau du corpus qui contrastent avec le comportement humain à grande échelle. Par exemple, la cohérence accrue de la sortie LLM peut amplifier les biais au niveau du corpus d'une manière qui est trop subtile pour être saisie en examinant les cas individuels d'utilisation.

Les avancées récentes dans les grands modèles de langage ont conduit les chercheurs à les utiliser de plus en plus pour rédiger des évaluations par les pairs, une pratique ancienne dans le monde universitaire où les nouvelles recherches sont examinées et évaluées par d'autres experts du domaine. Cependant, recourir à des outils tels que ChatGPT pour analyser des manuscrits et critiquer la recherche sans les lire compromet ce processus d'évaluation.

Les enjeux de l'intelligence artificielle dans l'évaluation des articles universitaires

Pour remédier à cette situation, les conférences sur l'IA et l'apprentissage automatique envisagent de mettre à jour leurs politiques pour clarifier leur position sur l'utilisation de l'IA dans ce contexte. Par exemple, NeurIPS et l'ICLR examinent la possibilité de mettre en place des comités pour évaluer l'utilisation des grands modèles de langage dans le processus d'évaluation par les pairs. En outre, des éditeurs universitaires tels que Springer Nature soulignent l'importance de faire appel à des experts humains pour évaluer la recherche, soulignant les risques liés à la délégation de cette tâche à l'intelligence artificielle.

Il est crucial de reconnaître les défis considérables que pose l'utilisation généralisée de l'intelligence artificielle, notamment des grands modèles de langage (LLM), dans l'évaluation par les pairs des articles universitaires. En effet, il est devenu extrêmement difficile de distinguer les textes produits par l'IA de ceux rédigés par des humains, ce qui ouvre la porte à des risques graves tels que la propagation de contenus trompeurs ou biaisés.

De plus, il est essentiel de comprendre que les tendances observées dans l'utilisation des LLM peuvent révéler des biais ou des incohérences qui pourraient passer inaperçus lors d'une évaluation individuelle des cas. Cela souligne la nécessité pressante d'adapter nos politiques et nos pratiques pour tenir compte de ces nouveaux défis et de leurs implications sur la qualité et l'intégrité de la recherche.

Enfin, il est impératif de maintenir l'évaluation par les pairs comme une responsabilité humaine, car les experts humains jouent un rôle irremplaçable dans la préservation de la fiabilité et de la crédibilité de la recherche universitaire. Face à ces enjeux, il est impératif d'adopter une approche réfléchie et proactive pour relever les défis posés par l'utilisation de l'IA dans le domaine académique.

Malgré cela, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, ce qui soulève des préoccupations quant à la qualité et à l'intégrité du processus d'évaluation par les pairs. Des études, comme celle menée par l'université de Stanford, ont révélé une augmentation des textes qui semblent avoir été générés par des grands modèles de langage lors du processus d'examen par les pairs. Ces tendances suscitent des inquiétudes quant à l'utilisation appropriée de l'IA dans le domaine académique et soulignent la nécessité pour les conférences et les éditeurs de clarifier leurs politiques concernant l'utilisation de l'IA dans l'évaluation des articles universitaires.

Toutefois, les chercheurs se tournent de plus en plus vers l'IA pour réviser leurs articles. Une étude menée par l'université de Stanford a révélé une augmentation des textes qui semblent avoir été « substantiellement modifiés ou produits par un LLM » lors du processus d'évaluation par les pairs à NeurIPS, ICLR et d'autres conférences populaires sur l'apprentissage automatique. « Je pense que certaines personnes s'en plaignent, et nous avons entendu de nombreuses anecdotes sur des personnes qui pensent avoir reçu des évaluations de ChatGPT », a déclaré à Semafor Weixin Liang, doctorante en informatique à l'université de Stanford.

Perspectives des grandes conférences de ML après ChatGPT

Dans toutes les grandes conférences de ML (NeurIPS, CoRL et ICLR), on observe une forte augmentation de l'estimation α après la publication de ChatGPT à la fin du mois de novembre 2022. Par exemple, parmi les conférences disposant de données avant et après ChatGPT, l'ICLR a connu l'augmentation la plus importante de l'α estimé, passant de 1,6 % à 10,6 % (courbe violette). NeurIPS a connu une augmentation légèrement inférieure, de 1,9 % à 9,1 % (courbe verte), tandis que l'augmentation de CoRL a été la plus faible, de 2,4 % à 6,5 % (courbe rouge). Bien que les données relatives aux examens de l'EMNLP antérieurs à la publication de ChatGPT ne soient pas disponibles, cette conférence a affiché le α estimé le plus élevé, soit environ 16,9 % (point orange). Ce résultat n'est peut-être pas surprenant : les spécialistes du NLP ont peut-être été plus exposés et ont mieux connu les LLM dans les premiers jours de leur publication.

Il convient de noter que tous les niveaux α post-ChatGPT sont significativement plus élevés que les α estimés dans les expériences de validation avec une vérité de terrain α = 0, et pour ICLR et NeurIPS, les estimations sont significativement plus élevées que les estimations de validation avec une vérité de terrain α = 5 %. Cela suggère une utilisation modeste mais notable des outils de génération de texte par l'IA dans les corpus de revues de conférence.

Il est crucial de reconnaître les défis considérables que pose l'utilisation généralisée de l'intelligence artificielle, notamment des grands modèles de langage (LLM), dans l'évaluation par les pairs des articles universitaires. En effet, il est devenu extrêmement difficile de distinguer les textes produits par l'IA de ceux rédigés par des humains, ce qui ouvre la porte à des risques graves tels que la propagation de contenus trompeurs ou biaisés.

De plus, il est essentiel de comprendre que les tendances observées dans l'utilisation des LLM peuvent révéler des biais ou des incohérences qui pourraient passer inaperçus lors d'une évaluation individuelle des cas. Cela souligne la nécessité pressante d'adapter nos politiques et nos pratiques pour tenir compte de ces nouveaux défis et de leurs implications sur la qualité et l'intégrité de la recherche.

Enfin, il est impératif de maintenir l'évaluation par les pairs comme une responsabilité humaine, car les experts humains jouent un rôle irremplaçable dans la préservation de la fiabilité et de la crédibilité de la recherche universitaire. Face à ces enjeux, il est impératif d'adopter une approche réfléchie et proactive pour relever les défis posés par l'utilisation de l'IA dans le domaine académique.

Source : A spokesperson for NeurIPS

Et vous ?

Quel est votre avis sur le sujet ?

Dans quelle mesure l'incapacité à distinguer clairement les textes générés par l'IA de ceux rédigés par des humains menace-t-elle l'intégrité de l'information scientifique et académique ?

En quoi l'utilisation d'outils tels que ChatGPT pour analyser des manuscrits et critiquer la recherche sans les lire remet-elle en question l'intégrité du processus d'évaluation par les pairs ?

Voir aussi :

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA, environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

Les plus grands scientifiques chinois et occidentaux de l'IA publient une déclaration : la menace existentielle que représente l'IA nécessite une collaboration similaire à celle de la guerre froide

Vous avez lu gratuitement 49 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires,

Mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires, Mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs

Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires,

Mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs