ChatGPT produirait de faux documents universitaires

Alors que des professions se sentent menacées par le célèbre outil d'OpenAI

Le 17 février 2023 à 10:35, par Bruno

257PARTAGES

Certains des plus grands éditeurs de revues universitaires du monde ont interdit ou restreint l'utilisation par leurs auteurs du chatbot avancé ChatGPT. Comme le robot utilise des informations provenant d'Internet pour produire des réponses très lisibles à des questions, les éditeurs craignent que des travaux inexacts ou plagiés n'entrent dans les pages de la littérature universitaire.

Plusieurs chercheurs ont déjà inscrit le chatbot en tant que coauteur dans des études universitaires, et certains éditeurs ont décidé d'interdire cette pratique. Mais le rédacteur en chef de Science, l'une des principales revues scientifiques au monde, est allé plus loin en interdisant toute utilisation du texte du programme dans les articles soumis.

Une équipe de chercheurs dirigée par la Northwestern University a utilisé l'outil de génération de texte, développé par OpenAI, pour produire 50 résumés basés sur le titre d'un véritable article scientifique dans le style de cinq revues médicales différentes. Quatre universitaires ont été recrutés pour participer à ce test, et ont été répartis en deux groupes de deux. Un tirage au sort électronique a permis de décider si un résumé généré par l'IA, réel ou faux, était remis à un examinateur de chaque groupe. Si un chercheur recevait un vrai résumé, le second recevait un faux, et vice-versa. Chaque personne a examiné 25 résumés scientifiques.

Why does chatGPT make up fake academic papers?

By now, we know that the chatbot notoriously invents fake academic references. E.g. its answer to the most cited economics paper is completely made-up (see image).

But why? And how does it make them? A THREAD (1/n) 🧵 pic.twitter.com/kyWuc915ZJ
— David Smerdon (@dsmerdon) January 27, 2023

Les examinateurs ont pu détecter 68 % des résumés erronés générés par l'IA et 86 % des résumés originaux provenant de vrais articles. En d'autres termes, ils ont réussi à leur faire croire que 32 % des résumés rédigés par l'IA étaient vrais et que 14 % des résumés réels étaient faux.

Catherine Gao, premier auteur de l'étude et médecin et scientifique spécialisée en pneumologie à la Northwestern University, a déclaré que cela montre que ChatGPT peut être assez convaincant. « Nos examinateurs savaient que certains des résumés qu'ils recevaient étaient faux, ils étaient donc très méfiants », a-t-elle déclaré dans un communiqué.

« Le fait que nos examinateurs aient quand même manqué les résumés générés par l'IA dans 32 % des cas signifie que ces résumés sont vraiment bons. Je soupçonne que si quelqu'un tombait simplement sur l'un de ces résumés générés, il ne serait pas nécessairement capable de l'identifier comme étant écrit par l'IA. » « Nos examinateurs ont commenté qu'il était étonnamment difficile de différencier les vrais et les faux résumés, a déclaré Gao. Les résumés générés par ChatGPT étaient très convaincants... »

Gao pense que des outils comme ChatGPT faciliteront la tâche des usines à papier, qui tirent profit de la publication d'études, pour produire de faux articles scientifiques. « Si d'autres personnes essaient de construire leur science à partir de ces études incorrectes, cela peut être réellement dangereux », a-t-elle ajouté. L'utilisation de ces outils présente toutefois aussi des avantages. Alexander Pearson, co-auteur de l'étude et professeur associé de médecine à l'université de Chicago, a déclaré qu'ils pourraient aider les scientifiques dont l'anglais n'est pas la langue maternelle à mieux écrire et à partager leurs travaux.

Les résultats mettent en évidence certaines forces et faiblesses potentielles de ChatGPT

Les chercheurs soupçonnent ici que ChatGPT est particulièrement fort pour prendre un ensemble de textes externes et les connecter (l'essence d'une idée de recherche), ou pour prendre des sections facilement identifiables d'un document et les ajuster (un exemple est le résumé des données - un "morceau de texte" facilement identifiable dans la plupart des études de recherche).

« Nous avons constaté que les différentes sections de la recherche étaient évaluées différemment. L'idée de recherche et l'ensemble de données ont eu tendance à être bien notées. Les analyses documentaires et les suggestions de tests ont été moins bien notées, mais restent acceptables » Une faiblesse relative de la plateforme serait apparue lorsque la tâche était plus complexe - lorsque le processus conceptuel comporte trop d'étapes. Les analyses de documents et les tests ont tendance à entrer dans cette catégorie.

Il n'est pas surprenant que l'utilisation de ces chatbots intéresse les éditeurs universitaires. Une récente étude, publiée dans Finance Research Letters, a montré que ChatGPT pouvait être utilisé pour rédiger un article financier qui serait accepté par une revue universitaire.

Les chercheurs ont montré, en se basant sur les évaluations des résultats générés par les évaluateurs des revues financières, que le chatbot IA ChatGPT peut contribuer de manière significative à la recherche financière. « En principe, ces résultats devraient pouvoir être généralisés à d'autres domaines de recherche. Les avantages sont évidents pour la génération d'idées et l'identification de données. Cependant, la technologie est plus faible en ce qui concerne la synthèse de la littérature et le développement de cadres de test appropriés », concluent-ils.

La réflexion était la suivante : s'il est facile d'obtenir de bons résultats avec ChatGPT en l'utilisant simplement, peut-être pouvons-nous faire quelque chose de plus pour transformer ces bons résultats en excellents résultats. Les chercheurs ont d'abord demandé à ChatGPT de générer les quatre parties standard d'une étude de recherche : l'idée de recherche, l'analyse documentaire (une évaluation des recherches universitaires précédentes sur le même sujet), l'ensemble des données et les suggestions de tests et d'examens. Ils ont spécifié que le sujet général et que le résultat devait pouvoir être publié dans « une bonne revue financière ».

C'est la première version choisi pour utiliser ChatGPT. Pour la deuxième version, ils ont collé dans la fenêtre de ChatGPT un peu moins de 200 résumés d'études pertinentes et existantes. Ils ont ensuite demandé au programme de les prendre en compte lors de la création des quatre étapes de recherche. Enfin, pour la version 3, ils ont ajouté « l'expertise du domaine », c'est-à-dire la contribution de chercheurs universitaires. « Nous avons lu les réponses produites par le programme informatique et fait des suggestions d'amélioration. Ce faisant, nous avons intégré notre expertise à celle de ChatGPT », ont-ils dit.

« Nous avons ensuite demandé à un panel de 32 évaluateurs d'examiner chacun une version de la manière dont ChatGPT peut être utilisé pour générer une étude universitaire. Les examinateurs ont été invités à évaluer si le résultat était suffisamment complet et correct, et s'il apportait une contribution suffisamment nouvelle pour être publié dans une "bonne"...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :