
environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM
Les chercheurs en intelligence artificielle ont commencé à utiliser l'assistance de l'IA pour évaluer le travail de leurs pairs. Un groupe de chercheurs provenant de plusieurs institutions de renom a analysé les évaluations par les pairs d'articles soumis à des conférences importantes en intelligence artificielle. Leur étude, motivée par l'essor des grands modèles de langage et la difficulté croissante à distinguer le texte généré par des humains de celui généré par des machines, souligne l'importance de développer des moyens d'évaluer le contenu rédigé par l'IA.
Ils ont constaté que l'utilisation d'adjectifs dans les évaluations peut permettre de distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains. Environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage, selon leurs résultats. Les chercheurs mettent en garde contre le manque de transparence dans l'utilisation de l'IA pour la rédaction scientifique et soulignent les risques d'homogénéisation des retours d'IA, qui pourraient éloigner les évaluations significatives des experts.
Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »
Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.

Changement dans la fréquence des adjectifs dans les évaluations par les pairs de l'ICLR 2024. On constate un changement significatif dans la fréquence de certains tokens dans l'ICLR 2024, avec des adjectifs tels que « louable », « méticuleux » et « complexe » montrant des augmentations de probabilité de 9,8, 34,7 et 11,2 fois dans la survenue dans une phrase.
Générer les données d'entraînement
Les chercheurs ont besoin d'accéder à des données historiques pour estimer P et Q. Plus précisément, ils supposent qu’ils ont accès à une collection de critiques qui sont connues pour ne contenir que du texte rédigé par des humains, ainsi que les questions associées aux critiques et les articles évalués. Ils désignent cette collection de documents sous le nom de corpus humain. Pour générer le corpus IA, chacune des instructions des évaluateurs et des articles associés aux critiques dans le corpus humain doit être soumise à un outil de langage IA (par exemple, ChatGPT), et le LLM doit être incité à générer une critique.
Les instructions peuvent être soumises à plusieurs LLM différents pour générer des données d'entraînement qui sont plus robustes au choix du générateur IA utilisé. Les textes produits par le LLM sont ensuite rassemblés dans le corpus IA. Empiriquement, nous avons constaté que notre cadre présente une robustesse modérée au décalage de distribution des instructions LLM.
Un aperçu de la méthode. Les chercheurs commencent par générer un corpus de documents avec une paternité connue, qu'elle soit scientifique ou IA. En utilisant ces données historiques, ils peuvent estimer les distributions de textes écrits par des scientifiques et par l'IA, P et Q, et valider la performance de la méthode sur des données retenues. Enfin, ils peuvent utiliser les estimations de P et Q pour estimer la fraction de texte généré par l'IA dans un corpus cible.
Comparaison aux méthodes de détection de pointe de GPT
Les chercheurs ont mené des expériences en utilisant l'approche traditionnelle de classification pour la détection de texte IA. C'est-à-dire, ils ont utilisé deux détecteurs de texte IA disponibles dans le commerce (RADAR et DeepfakeTextDetect) pour classer chaque phrase comme étant générée par l'IA ou par un humain. L’estimation pour α est la fraction de phrases que le classificateur pense être générée par l'IA. Deux classificateurs disponibles dans le commerce prédisent que presque toutes (RADAR) ou aucune (Deepfake) des phrases sont générées par l'IA, quel que soit le niveau α réel.
À l'exception de la méthode basée sur BERT, les prédictions faites par tous les classificateurs restent presque constantes à tous les niveaux α, ce qui conduit à de mauvaises performances pour tous. Cela peut être dû à un décalage de distribution entre les données utilisées pour entraîner le classificateur (probablement des textes généraux collectés sur Internet) et les textes trouvés dans les évaluations de conférences. Bien que les estimations de BERT pour α semblent au moins positivement corrélées avec la valeur α correcte, l'erreur dans l'estimation reste importante par rapport à la grande précision obtenue par notre méthode.
L'utilisation de l'assistance de l'IA pour évaluer le travail de pairs dans le domaine de l'intelligence artificielle représente à la fois une avancée et un défi important. L'étude menée par ce groupe de chercheurs met en lumière plusieurs points cruciaux qui méritent une réflexion approfondie. Tout d'abord, il est louable que ces chercheurs aient entrepris cette analyse pour évaluer l'impact des grands modèles de langage sur les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.