Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA,

Mais la reformulation du texte pourrait brouiller les pistes

Le 2 juillet 2024 à 20:18, par Mathis Lucas

124PARTAGES

Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA
mais la reformulation du texte pourrait brouiller les pistes

Un groupe de chercheurs de l'université allemande de Tubingen et de l'université Northwestern suggère que l'occurrence élevée de certains mots (ou expressions) dans un texte à l'ère des grands modèles de langages (LLM) peut vouloir signifier que ce dernier a été généré par l'IA. En examinant l'usage excessif des mots après que les chatbots sont devenus largement disponibles à la fin de 2022, les chercheurs ont constaté une augmentation soudaine de la fréquence de certains mots de style qui était "sans précédent à la fois en matière de qualité et de quantité". Mais à peine ces mots sont-ils répertoriés qu'il est possible de dire à l'IA de ne pas en faire usage.

Le développement d'outils capables de détecter de manière fiable les textes générés par l'IA a été jusqu'ici un échec. Et même les entreprises spécialisées dans l'IA n'ont pas réussi à proposer des solutions convaincantes. Aujourd'hui, un groupe de chercheurs de l'université de Tubingen, en Allemagne, et de l'université Northwestern, aux États-Unis, propose une nouvelle piste. Ils ont élaboré une méthode pour estimer l'utilisation du LLM dans un vaste ensemble d'écrits scientifiques en mesurant les "mots en trop" qui ont commencé à apparaître beaucoup plus fréquemment depuis l'avènement des LLM (soit en 2023 et 2024).

Les résultats suggèrent qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Pour mesurer ces changements de vocabulaire, les chercheurs ont analysé 14 millions de résumés d'articles publiés sur PubMed entre 2010 et 2024, en suivant la fréquence relative de chaque mot apparaissant chaque année. Ils ont ensuite comparé la fréquence attendue de ces mots (sur la base de la ligne de tendance antérieure à 2023) à la fréquence réelle de ces mots dans les résumés de 2023 et 2024, lorsque les LLM (ChatGPT, Gemini, etc.) sont devenus très nombreux sur le marché et ont commencé à être largement utilisés.

L'étude a révélé un certain nombre de mots qui étaient extrêmement rares dans ces résumés scientifiques avant 2023 et qui ont soudainement gagné en popularité après l'introduction des LLM. Le mot "delves", par exemple, apparaît dans 25 fois plus d'articles de 2024 que ne le laissait prévoir la tendance pré-LLM ; des mots comme "showcasing" et "underscores" ont aussi vu leur utilisation multipliée par neuf. Des mots qui étaient auparavant courants sont devenus nettement plus fréquents dans les résumés post-LLM : la fréquence de "potential" a augmenté de 4,1 %, celle de "findings" de 2,7 % et celle de "crucial" de 2,6 %.

Envoyé par Extrait du rapport de l'étude

Les grands modèles de langage (LLM) récents peuvent générer et réviser des textes avec des performances humaines, et ont été largement commercialisés dans des systèmes tels que ChatGPT. Ces modèles présentent des limites évidentes : ils peuvent produire des informations inexactes, renforcer les préjugés existants et être facilement utilisés à mauvais escient. Pourtant, de nombreux scientifiques les utilisent pour faciliter la rédaction de leurs travaux scientifiques. Dans quelle mesure l'utilisation des LLM est-elle répandue dans la littérature académique ?

Pour répondre à cette question, nous utilisons une approche impartiale et à grande échelle, exempte de toute hypothèse sur l'utilisation des LLM dans le monde universitaire. Nous étudions les changements de vocabulaire dans 14 millions de résumés PubMed entre 2010 et 2024, et montrons comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style.

Notre analyse basée sur l'utilisation de mots excédentaires suggère qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, et atteint 30 % pour certains sous-corpus de PubMed. Nous montrons que l'apparition d'assistants de rédaction basés sur les LLM a eu un impact sans précédent sur la littérature scientifique, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de Covid.

Ce type de changement dans l'utilisation des mots pourrait se produire indépendamment de l'utilisation du LLM, bien sûr ; l'évolution naturelle de la langue signifie que les mots passent parfois d'un style à l'autre. Toutefois, les chercheurs ont constaté que, dans l'ère pré-LLM, de telles augmentations massives et soudaines d'une année sur l'autre n'ont été observées que pour les mots liés à des événements sanitaires mondiaux : "ebola" en 2015, "zika" en 2017 et des mots comme "coronavirus", "lockdown" et "pandemic" entre 2020 et 2022. Mais l'usage excessif de certains mots depuis 2023 ne correspond pas à ce schéma.

En effet, alors que les mots utilisés de façon excessive pendant la pandémie de Covid-19 étaient en grande majorité des noms, l'équipe a constaté que les mots dont la fréquence avait augmenté depuis l'avènement des LLM sont en grande majorité des "mots de style" tels que des verbes, des adjectifs et des adverbes : across, additionally, comprehensive, enhancing, exhibited, insights, notably, particularly, within). De plus, il ne s'agit pas d'une remarque totalement nouvelle. Par exemple, la prévalence accrue de l'expression "delve" (approfondir) dans les articles scientifiques a été largement constatée dans un passé récent.

Mais les études antérieures s'appuyaient généralement sur des comparaisons avec des échantillons d'écriture humaine de "vérité de base" ou des listes de marqueurs LLM prédéfinis obtenus en dehors de l'étude. Ici, l'ensemble des résumés antérieurs à 2023 agit comme son propre groupe de contrôle efficace pour montrer comment le choix du vocabulaire a changé dans l'ensemble de données depuis l'arrivée des LLM. En mettant en évidence des centaines de "mots marqueurs" qui sont devenus beaucoup plus fréquents dans l'ère post-LLM, les signes révélateurs de l'utilisation d'un LLM peuvent parfois être faciles à repérer.

Comme indiqué ci-dessus, les pourcentages mesurés peuvent varier considérablement d'un sous-ensemble d'articles à l'autre. Les chercheurs ont constaté que les articles rédigés dans des pays comme la Chine, la Corée du Sud et Taïwan présentaient des "mots marqueurs" dans 15 % des cas. Cela suggère que les LLM pourraient aider les non-natifs à éditer des textes en anglais, ce qui pourrait justifier leur usage excessif. D'autre part, les chercheurs estiment que les locuteurs natifs de l'anglais peuvent [simplement] être plus aptes à remarquer et à supprimer activement les mots de style non naturels des sorties modèles.

Ces derniers pourraient ainsi dissimuler leur utilisation du LLM à ce type d'analyse. Par ailleurs, bien que l'étude puisse aider dans la détection des textes générés par l'IA, elle indique également aux utilisateurs ce qu'ils doivent faire pour passer entre les mailles du filet. Comme la connaissance des "mots marqueurs" révélateurs des LLM commence à se répandre, les rédacteurs humains pourraient devenir plus aptes à retirer ces marqueurs des textes générés avant qu'ils ne soient partagés avec le monde entier. Il est également possible que les LLM effectuent cette analyse eux-mêmes et réduisent l'occurrence de certains mots.

En somme, le défi de la détection des textes générés par l'IA n'est toujours pas résolu. En prenant connaissance de ces découvertes, les étudiants et les chercheurs qui utilisent les LLM pour rédiger leurs travaux pourraient facilement éviter de se faire prendre. Selon certains analystes, ce phénomène pourrait ouvrir la voie à un nouveau métier : des professionnels chargés de débusquer les textes générés par l'IA qui se cachent aujourd'hui dans l'immensité du Web.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la méthode de détection des textes générés par l'IA décrite ci-dessus ?

Selon vous, cette technique peut-elle réellement servir de manière fiable dans la réalité ?

Pourquoi les entreprises ne réussissent-elle pas à proposer à un outil fiable pour la détection des textes générés par l'IA ?

Selon vous, comment peut-on détecter de manière fiable les textes générés par l'IA ?

Voir aussi

OpenAI développe un logiciel pour détecter le texte généré par ChatGPT, plusieurs outils visent à déterminer quels textes ont été générés par IA et lesquels ont été écrits par des humains

Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables

OpenAI lance un outil capable de détecter les images créées par son générateur texte-image DALL-E 3 afin de répondre aux inquiétudes concernant l'influence des contenus générés par l'IA lors des élections

Vous avez lu gratuitement 7 431 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA,

Mais la reformulation du texte pourrait brouiller les pistes

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA, Mais la reformulation du texte pourrait brouiller les pistes

Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA,

Mais la reformulation du texte pourrait brouiller les pistes