Le développement d'outils capables de détecter de manière fiable les textes générés par l'IA a été jusqu'ici un échec. Et même les entreprises spécialisées dans l'IA n'ont pas réussi à proposer des solutions convaincantes. Aujourd'hui, un groupe de chercheurs de l'université de Tubingen, en Allemagne, et de l'université Northwestern, aux États-Unis, propose une nouvelle piste. Ils ont élaboré une méthode pour estimer l'utilisation du LLM dans un vaste ensemble d'écrits scientifiques en mesurant les "mots en trop" qui ont commencé à apparaître beaucoup plus fréquemment depuis l'avènement des LLM (soit en 2023 et 2024).
Les résultats suggèrent qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Pour mesurer ces changements de vocabulaire, les chercheurs ont analysé 14 millions de résumés d'articles publiés sur PubMed entre 2010 et 2024, en suivant la fréquence relative de chaque mot apparaissant chaque année. Ils ont ensuite comparé la fréquence attendue de ces mots (sur la base de la ligne de tendance antérieure à 2023) à la fréquence réelle de ces mots dans les résumés de 2023 et 2024, lorsque les LLM (ChatGPT, Gemini, etc.) sont devenus très nombreux sur le marché et ont commencé à être largement utilisés.
L'étude a révélé un certain nombre de mots qui étaient extrêmement rares dans ces résumés scientifiques avant 2023 et qui ont soudainement gagné en popularité après l'introduction des LLM. Le mot "delves", par exemple, apparaît dans 25 fois plus d'articles de 2024 que ne le laissait prévoir la tendance pré-LLM ; des mots comme "showcasing" et "underscores" ont aussi vu leur utilisation multipliée par neuf. Des mots qui étaient auparavant courants sont devenus nettement plus fréquents dans les résumés post-LLM : la fréquence de "potential" a augmenté de 4,1 %, celle de "findings" de 2,7 % et celle de "crucial" de 2,6 %.
Envoyé par Extrait du rapport de l'étude
En effet, alors que les mots utilisés de façon excessive pendant la pandémie de Covid-19 étaient en grande majorité des noms, l'équipe a constaté que les mots dont la fréquence avait augmenté depuis l'avènement des LLM sont en grande majorité des "mots de style" tels que des verbes, des adjectifs et des adverbes : across, additionally, comprehensive, enhancing, exhibited, insights, notably, particularly, within). De plus, il ne s'agit pas d'une remarque totalement nouvelle. Par exemple, la prévalence accrue de l'expression "delve" (approfondir) dans les articles scientifiques a été largement constatée dans un passé récent.
Mais les études antérieures s'appuyaient généralement sur des comparaisons avec des échantillons d'écriture humaine de "vérité de base" ou des listes de marqueurs LLM prédéfinis obtenus en dehors de l'étude. Ici, l'ensemble des résumés antérieurs à 2023 agit comme son propre groupe de contrôle efficace pour montrer comment le choix du vocabulaire a changé dans l'ensemble de données depuis l'arrivée des LLM. En mettant en évidence des centaines de "mots marqueurs" qui sont devenus beaucoup plus fréquents dans l'ère post-LLM, les signes révélateurs de l'utilisation d'un LLM peuvent parfois être faciles à repérer.
Comme indiqué ci-dessus, les pourcentages mesurés peuvent varier considérablement d'un sous-ensemble d'articles à l'autre. Les chercheurs ont constaté que les articles rédigés dans des pays comme la Chine, la Corée du Sud et Taïwan présentaient des "mots marqueurs" dans 15 % des cas. Cela suggère que les LLM pourraient aider les non-natifs à éditer des textes en anglais, ce qui pourrait justifier leur usage excessif. D'autre part, les chercheurs estiment que les locuteurs natifs de l'anglais peuvent [simplement] être plus aptes à remarquer et à supprimer activement les mots de style non naturels des sorties modèles.
Ces derniers pourraient ainsi dissimuler leur utilisation du LLM à ce type d'analyse. Par ailleurs, bien que l'étude puisse aider dans la détection des textes générés par l'IA, elle indique également aux utilisateurs ce qu'ils doivent faire pour passer entre les mailles du filet. Comme la connaissance des "mots marqueurs" révélateurs des LLM commence à se répandre, les rédacteurs humains pourraient devenir plus aptes à retirer ces marqueurs des textes générés avant qu'ils ne soient partagés avec le monde entier. Il est également possible que les LLM effectuent cette analyse eux-mêmes et réduisent l'occurrence de certains mots.
En somme, le défi de la détection des textes générés par l'IA n'est toujours pas résolu. En prenant connaissance de ces découvertes, les étudiants et les chercheurs qui utilisent les LLM pour rédiger leurs travaux pourraient facilement éviter de se faire prendre. Selon certains analystes, ce phénomène pourrait ouvrir la voie à un nouveau métier : des professionnels chargés de débusquer les textes générés par l'IA qui se cachent aujourd'hui dans l'immensité du Web.
Source : rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la méthode de détection des textes générés par l'IA décrite ci-dessus ?
Selon vous, cette technique peut-elle réellement servir de manière fiable dans la réalité ?
Pourquoi les entreprises ne réussissent-elle pas à proposer à un outil fiable pour la détection des textes générés par l'IA ?
Selon vous, comment peut-on détecter de manière fiable les textes générés par l'IA ?
Voir aussi
OpenAI développe un logiciel pour détecter le texte généré par ChatGPT, plusieurs outils visent à déterminer quels textes ont été générés par IA et lesquels ont été écrits par des humains
Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables
OpenAI lance un outil capable de détecter les images créées par son générateur texte-image DALL-E 3 afin de répondre aux inquiétudes concernant l'influence des contenus générés par l'IA lors des élections