IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA,
Environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

Le , par Bruno

15PARTAGES

3  0 
Les chercheurs en intelligence artificielle ont commencé à utiliser l'assistance de l'IA pour évaluer le travail de leurs pairs. Un groupe de chercheurs provenant de plusieurs institutions de renom a analysé les évaluations par les pairs d'articles soumis à des conférences importantes en intelligence artificielle. Leur étude, motivée par l'essor des grands modèles de langage et la difficulté croissante à distinguer le texte généré par des humains de celui généré par des machines, souligne l'importance de développer des moyens d'évaluer le contenu rédigé par l'IA.

Ils ont constaté que l'utilisation d'adjectifs dans les évaluations peut permettre de distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains. Environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage, selon leurs résultats. Les chercheurs mettent en garde contre le manque de transparence dans l'utilisation de l'IA pour la rédaction scientifique et soulignent les risques d'homogénéisation des retours d'IA, qui pourraient éloigner les évaluations significatives des experts.

Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »

Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.

Citation Envoyé par Research group
Nous présentons une approche pour estimer la fraction de texte dans un grand corpus qui est susceptible d'être substantiellement modifiée ou produite par un grand modèle de langage (LLM). Notre modèle de vraisemblance maximale exploite des textes de référence rédigés par des experts et générés par l'IA pour examiner avec précision et efficacité l'utilisation réelle des LLM au niveau du corpus. Nous appliquons cette approche à une étude de cas des évaluations par les pairs scientifiques. Nous constatons un changement significatif dans la fréquence des évaluations par les pairs dans les conférences en IA qui ont eu lieu après la sortie de ChatGPT : ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023.

Nos résultats suggèrent qu'entre 6,5 % et 16,9 % du texte soumis en tant qu'évaluations par les pairs à ces conférences pourrait avoir été substantiellement modifié par des LLM, c'est-à-dire au-delà de la correction orthographique ou des mises à jour mineures de rédaction. Les circonstances dans lesquelles le texte généré apparaît offrent un aperçu du comportement de l'utilisateur : la fraction estimée de texte généré par LLM est plus élevée dans les évaluations qui rapportent une confiance moindre, qui sont soumises près de la date limite, et provenant de réviseurs moins susceptibles de répondre aux réfutations des auteurs.

Nous observons également des tendances au niveau du corpus dans le texte généré qui peuvent être trop subtiles pour être détectées au niveau individuel, et discutons des implications de telles tendances sur l'évaluation par les pairs. Nous appelons à des travaux interdisciplinaires futurs pour examiner comment l'utilisation des LLM change nos pratiques d'information et de connaissance.

Changement dans la fréquence des adjectifs dans les évaluations par les pairs de l'ICLR 2024. On constate un changement significatif dans la fréquence de certains tokens dans l'ICLR 2024, avec des adjectifs tels que « louable », « méticuleux » et « complexe » montrant des augmentations de probabilité de 9,8, 34,7 et 11,2 fois dans la survenue dans une phrase.

Générer les données d'entraînement

Les chercheurs ont besoin d'accéder à des données historiques pour estimer P et Q. Plus précisément, ils supposent qu’ils ont accès à une collection de critiques qui sont connues pour ne contenir que du texte rédigé par des humains, ainsi que les questions associées aux critiques et les articles évalués. Ils désignent cette collection de documents sous le nom de corpus humain. Pour générer le corpus IA, chacune des instructions des évaluateurs et des articles associés aux critiques dans le corpus humain doit être soumise à un outil de langage IA (par exemple, ChatGPT), et le LLM doit être incité à générer une critique.

Les instructions peuvent être soumises à plusieurs LLM différents pour générer des données d'entraînement qui sont plus robustes au choix du générateur IA utilisé. Les textes produits par le LLM sont ensuite rassemblés dans le corpus IA. Empiriquement, nous avons constaté que notre cadre présente une robustesse modérée au décalage de distribution des instructions LLM.


Un aperçu de la méthode. Les chercheurs commencent par générer un corpus de documents avec une paternité connue, qu'elle soit scientifique ou IA. En utilisant ces données historiques, ils peuvent estimer les distributions de textes écrits par des scientifiques et par l'IA, P et Q, et valider la performance de la méthode sur des données retenues. Enfin, ils peuvent utiliser les estimations de P et Q pour estimer la fraction de texte généré par l'IA dans un corpus cible.

Comparaison aux méthodes de détection de pointe de GPT

Les chercheurs ont mené des expériences en utilisant l'approche traditionnelle de classification pour la détection de texte IA. C'est-à-dire, ils ont utilisé deux détecteurs de texte IA disponibles dans le commerce (RADAR et DeepfakeTextDetect) pour classer chaque phrase comme étant générée par l'IA ou par un humain. L’estimation pour α est la fraction de phrases que le classificateur pense être générée par l'IA. Deux classificateurs disponibles dans le commerce prédisent que presque toutes (RADAR) ou aucune (Deepfake) des phrases sont générées par l'IA, quel que soit le niveau α réel.

À l'exception de la méthode basée sur BERT, les prédictions faites par tous les classificateurs restent presque constantes à tous les niveaux α, ce qui conduit à de mauvaises performances pour tous. Cela peut être dû à un décalage de distribution entre les données utilisées pour entraîner le classificateur (probablement des textes généraux collectés sur Internet) et les textes trouvés dans les évaluations de conférences. Bien que les estimations de BERT pour α semblent au moins positivement corrélées avec la valeur α correcte, l'erreur dans l'estimation reste importante par rapport à la grande précision obtenue par notre méthode.

L'utilisation de l'assistance de l'IA pour évaluer le travail de pairs dans le domaine de l'intelligence artificielle représente à la fois une avancée et un défi important. L'étude menée par ce groupe de chercheurs met en lumière plusieurs points cruciaux qui méritent une réflexion approfondie. Tout d'abord, il est louable que ces chercheurs aient entrepris cette analyse pour évaluer l'impact des grands modèles de langage sur les évaluations par les pairs. Cette démarche souligne une prise de conscience de l'évolution des pratiques dans le domaine de la recherche et de l'importance de comprendre comment l'IA influence ces pratiques.

La découverte selon laquelle l'utilisation d'adjectifs peut aider à distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains est intrigante. Cela suggère qu'il existe des moyens potentiels de détecter l'intervention de l'IA dans le processus de rédaction, ce qui pourrait être crucial pour maintenir l'intégrité de la recherche scientifique.

Cependant, la constatation que jusqu'à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage soulève des préoccupations légitimes quant à l'impact de l'IA sur le processus d'évaluation de la recherche. Cette statistique souligne la nécessité urgente d'une transparence accrue dans l'utilisation de l'IA dans la rédaction scientifique.

De plus, la mise en garde contre les risques d'homogénéisation des retours de l'IA est pertinente. Si les évaluations sont de plus en plus influencées par des modèles de langage, cela risque de limiter la diversité des perspectives et des critiques, ce qui est essentiel pour garantir la qualité et l'objectivité du processus d'évaluation par les pairs.

En conclusion, cette étude souligne les défis et les opportunités que représente l'utilisation de l'IA dans l'évaluation de la recherche. Elle met en lumière la nécessité de développer des méthodes pour détecter et réguler l'impact de l'IA tout en maintenant l'intégrité et la qualité du processus d'évaluation par les pairs dans le domaine de l'intelligence artificielle et au-delà.

Source : Group of researchers from Stanford University, NEC America Laboratories and UC Santa Barbara

Et vous ?

Quel est votre avis sur le sujet ?

Est-ce que les résultats obtenus par les chercheurs sont pertinents ?

Voir aussi :

Les grands modèles de langage sont des raisonneurs neuro-symboliques, selon une étude démontrant le potentiel significatif des LLM dans des tâches symboliques d'applications réelles

Après une mise à niveau LLM vers Inflection-2.5, le chatbot Pi AI destiné à fonctionner comme votre assistant personnel serait désormais intelligent et empathique

Les grands modèles de langage (LLM) sont désormais capables d'ignorer des informations non pertinentes grâce à la nouvelle technique "System 2 Attention" (S2A) introduite par Meta

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 13/06/2024 à 22:49
La publication scientifique est dans un cercle vicieux : on dilue la qualité dans la quantité, ce qui donne plus d'importance aux citations qu'aux sujets, ce qui pousse à plus de citations, donc plus d'articles, donc on dilue davantage parce que le temps disponible, lui, n'est pas extensible.

J'aimerais qu'on casse ces éditeurs pros au profit d'une édition collaborative à la Wikipédia. Avec des mesures de performance établies de manière communautaire, utilisées via de la gamification pour motiver l'amélioration de la production scientifique de manière itérative. De quoi permettre à tout un chacun de participer tout en poussant à la qualité, sans blocage d'accès.
1  0 
Avatar de pvincent
Membre confirmé https://www.developpez.com
Le 11/06/2024 à 7:44
A l'heure d'internet, la seule valeur ajoutée véritable des éditeur est le choix des publications, qui, comme dit dans le post, repose sur le travail gratuit des "pairs".
Sinon, il y a des sites collaboratifs comme ArXiv (https://fr.wikipedia.org/wiki/ArXiv)

L"IA rend le travail plus difficile mais le problème n'est pas nouveau: le texte suivant traîne sur le Web depuis longtemps:

la « parabole » d'Harnad

1. Un jeune chercheur ayant tout juste obtenu son doctorat annonce fièrement à
sa mère qu'il vient de publier son premier article. Elle lui demande combien
il a été payé. Il grimace, répond : « Rien » et se lance alors dans une
explication longue et compliquée...

2.Un chercheur de la même université repère cet article. Il se rend à la
bibliothèque pour l'obtenir. On lui répond : « Nous ne sommes pas abonnés à
cette revue, trop chère pour nous (notre budget d'abonnements, de droits, de
prêt et de reproduction est déjà largement dépensé). »

3. Un étudiant, dans la même université, voit le même article cité sur le Web.
Il clique sur la citation. Le site de l'éditeur demande un mot de passe :
« Accès refusé : seules les institutions autorisées et ayant souscrit un
abonnement ont accès à la revue. »

4. L'étudiant perd patience, s'ennuie et clique sur Napster pour mettre la
main sur la version MP3 de son CD favori et se consoler ainsi de ses
malheurs.

5. Des années plus tard, la titularisation [recrutement] du docteur du point
1 est envisagée. Ses publications sont bonnes, mais pas assez citées ; leur
« impact sur la recherche » n'est pas suffisant. Titularisation refusée.

6. Le même scénario se répète lorsqu'il essaie d'obtenir des crédits de
recherche. Ses résultats scientifiques n'ont pas eu un impact suffisant. Trop
peu de chercheurs les ont lus, s'en sont inspirés et les ont cités.
Financement refusé.

7. Il essaie alors d'écrire un livre. Les éditeurs refusent de le publier :
« On n'en vendrait pas assez d'exemplaires car il y a trop peu d'universités
ayant suffisamment d'argent pour en payer le prix (leurs budgets d'achat sont
limités par le coût annuel, sans cesse croissant, de leurs abonnements,
droits et prêts). »

8. Il essaie de mettre ses articles sur le Web, en accès libre, afin
d'augmenter leur impact [visibilité]. Son éditeur menace de le poursuivre,
ainsi que son fournisseur d'accès, pour violation du copyright.

9. Il demande à son éditeur : « Qui le copyright est-il censé protéger ? » Son
éditeur lui répond : « Vous ! »

=> Qu'est-ce qui ne va pas dans cette histoire ?
0  0