Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA

Les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

Le 4 juin 2023 à 12:14, par Bruno

91PARTAGES

Les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés pour lutter contre le nombre croissant de faux articles qui se frayent un chemin dans la littérature académique. Les progrès de l'intelligence artificielle (IA) compliquent les efforts déployés par les éditeurs pour s'attaquer au problème croissant des organisations non officielles et potentiellement illégales qui produisent de faux documents, de faux articles scientifiques sur commande. Les outils d'IA générative, y compris les chatbots tels que ChatGPT et les logiciels de génération d'images, offrent de nouveaux moyens de produire du contenu, qui pourrait s'avérer particulièrement difficile à reconnaitre. Ces questions ont été abordées par les experts en intégrité de la recherche lors d'un sommet qui s'est tenu le 24 mai et qui était consacré au problème de ses organisations non officielles et potentiellement illégales qui produisent de faux documents (paper mill).

Rappelons que dans le secteur de la recherche, un « paper mill » est une organisation non officielle et potentiellement illégale, orientée vers le profit, qui produit et vend de faux manuscrits qui semblent ressembler à des travaux de recherches authentiques. Dans certains cas, les « paper mill » sont des opérations sophistiquées qui vendent des positions d'auteur sur des recherches légitimes, mais dans de nombreux cas, les articles contiennent des données erronées et peuvent être fortement plagiés ou non professionnels. Selon un rapport de Nature, des milliers d'articles dans des revues universitaires ont été retracés jusqu'à des organisations en Chine, d'Iran et de Russie, et certaines revues réorganisent leurs processus d'évaluation.

De façon croissante, les entreprises produisent des articles scientifiques falsifiés sur commande, en échange d’argent. Les progrès de l’intelligence artificielle (IA) rendent plus difficile la détection de ces articles, car ils peuvent utiliser des outils capables de générer des images et du texte réaliste, qui imitent les données et le style des vrais articles.

Certains des plus grands éditeurs de revues universitaires du monde ont interdit ou restreint l'utilisation par leurs auteurs du chatbot avancé ChatGPT. Comme le robot utilise des informations provenant d'Internet pour produire des réponses très lisibles à des questions, les éditeurs craignent que des travaux inexacts ou plagiés n'entrent dans les pages de la littérature universitaire.

Plusieurs chercheurs ont déjà inscrit le chatbot en tant que coauteur dans des études universitaires, et certains éditeurs ont décidé d'interdire cette pratique. Mais le rédacteur en chef de Science, l'une des principales revues scientifiques au monde, est allé plus loin en interdisant toute utilisation du texte du programme dans les articles soumis.

Springer Nature, qui publie des milliers de revues scientifiques, a annoncé en début d’année que ChatGPT - ou tout système similaire de génération de texte - ne peut pas être crédité en tant qu'auteur dans les articles publiés dans ses revues. L'éditeur ne voit aucun problème au fait que l'IA soit utilisée pour aider à rédiger des recherches, mais elle exige que son utilisation soit correctement divulguée. Cette annonce intervient à un moment où le débat sur la question de savoir si l'on peut attribuer la paternité d'une œuvre à une IA s'intensifie, mais aussi après les déboires du média CNET avec son IA interne de génération de texte.

Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

« La capacité des organisations non officielles et potentiellement illégales qui produisent de faux documents à générer des données brutes de plus en plus plausibles va tout simplement exploser avec l'IA », déclare Jennifer Byrne, biologiste moléculaire et chercheuse en intégrité des publications à la New South Wales Health Pathology et à l'Université de Sydney en Australie.

« J'ai vu de fausses images de microscopie générées par l'IA », déclare Jana Christopher, analyste de l'intégrité des données d'image chez l'éditeur FEBS Press à Heidelberg, en Allemagne. Mais il reste difficile de prouver hors de tout soupçon que les images sont générées par l'IA, ajoute-t-elle.
Les outils d'IA générateurs de langage tels que ChatGPT posent un problème similaire. « Dès que l'on dispose d'un outil capable de démontrer que quelque chose a été généré par ChatGPT, il y aura un autre outil pour le brouiller », déclare Christopher.

Anna Abalkina, chercheuse en sciences sociales à l'Université libre de Berlin et analyste indépendante de l'intégrité de la recherche, soupçonne que ces outils d'IA pourraient tarder à apparaître dans la littérature universitaire en raison de la longueur du processus d'évaluation par les pairs. Peut-être que dans les prochains mois, « nous verrons le premier flux d'articles », dit-elle.

Byrne, Christopher et Abalkina ont participé la semaine dernière au sommet UNITED2ACT, organisé par le Committee on Publication Ethics (COPE), une organisation à but non lucratif spécialisée dans l'éthique de l'édition universitaire basée à Eastleigh, au Royaume-Uni, et par l'Association internationale des éditeurs scientifiques, techniques et médicaux (STM), basée à Oxford. Le sommet a réuni des chercheurs internationaux, y compris des analystes indépendants de l'intégrité de la recherche, ainsi que des représentants d'organismes de financement et d'éditeurs.

« C'était la première fois qu'un groupe de personnes se réunissait et créait ensemble une série d'actions que nous allons mettre en œuvre pour lutter contre ce problème », déclare Deborah Kahn, administratrice du COPE et consultante en matière d'intégrité de la recherche, basée à Londres. Le groupe a l'intention de publier bientôt son plan d'action commun.

Lorsqu'il s'agit de détecter des ouvrages en papier, « il y a absolument un défi supplémentaire qui est posé par les images synthétiques, le texte synthétique, etc. », déclare Joris van Rossum, directeur de programme pour STM Solutions, une filiale de STM. « Il y a une prise de conscience générale du fait que le dépistage risque de devenir plus difficile », ajoute-t-il.

L’IA et la recherche scientifique: opportunités et défis

Selon Kahn, même s'il ne fait aucun doute que l'IA sera utilisée de manière positive pour aider les chercheurs à rédiger des articles, il sera toujours nécessaire de faire la distinction entre les articles légitimes rédigés à l'aide de l'IA et ceux qui ont été complètement fabriqués. « Nous devons vraiment nous pencher sur la manière dont nous identifions ces documents et dont nous nous assurons que les personnes ont réellement effectué la recherche. Il y a plusieurs façons d'y parvenir », explique-t-elle.

L'une des stratégies discutées lors du sommet consistait à exiger des auteurs qu'ils fournissent les données brutes de leurs expériences, éventuellement accompagnées de filigranes numériques qui permettraient aux éditeurs de confirmer l'authenticité de ces données. Actuellement, les exigences en matière de soumission de données brutes varient considérablement d'un éditeur à l'autre, explique Christopher. Il pourrait donc être utile d'établir un ensemble uniforme d'exigences pour la soumission de données brutes entre les éditeurs, en tenant compte des différences entre les domaines de recherche.

Sabina Alam, directrice de l'éthique et de l'intégrité de l'édition chez Taylor & Francis, une maison d'édition basée à Abingdon, au Royaume-Uni, partage cet avis, mais estime que la mise en œuvre de telles normes prendra du temps. « Je ne peux pas imaginer que cela se fasse du jour au lendemain, car la réalité est que de nombreuses institutions n'ont pas les ressources nécessaires pour offrir une infrastructure de gestion des données », dit-elle. « Nous ne voulons pas pénaliser la recherche réelle. »

Deux doyens de l'université Vanderbilt de Nashville, dans le Tennessee, aux États-Unis, auraient été suspendus après avoir utilisé ChatGPT pour rédiger un courriel de 297 mots envoyé à des étudiants au sujet de la fusillade meurtrière qui a eu lieu la semaine dernière sur le campus de l'université d'État du Michigan. Au bas du message, on pouvait lire qu'il a été écrit par une IA : « Paraphrase from OpenAI's ChatGPT AI language model, personal communication, February 15, 2023 ». Une enquête a été ouverte par les autorités de l'université et les deux doyens ayant signé le courriel, Nicole Joseph et Hasina Mohyuddin, ont temporairement démissionné.

[B]Les outils de détection des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :