IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une étude suggère que la répétition excessive de certains "mots marqueurs" par les chatbots peut révéler qu'un texte a été généré par l'IA,
Mais la reformulation du texte pourrait brouiller les pistes

Le , par Mathis Lucas

0PARTAGES

4  0 
Un groupe de chercheurs de l'université allemande de Tubingen et de l'université Northwestern suggère que l'occurrence élevée de certains mots (ou expressions) dans un texte à l'ère des grands modèles de langages (LLM) peut vouloir signifier que ce dernier a été généré par l'IA. En examinant l'usage excessif des mots après que les chatbots sont devenus largement disponibles à la fin de 2022, les chercheurs ont constaté une augmentation soudaine de la fréquence de certains mots de style qui était "sans précédent à la fois en matière de qualité et de quantité". Mais à peine ces mots sont-ils répertoriés qu'il est possible de dire à l'IA de ne pas en faire usage.

Le développement d'outils capables de détecter de manière fiable les textes générés par l'IA a été jusqu'ici un échec. Et même les entreprises spécialisées dans l'IA n'ont pas réussi à proposer des solutions convaincantes. Aujourd'hui, un groupe de chercheurs de l'université de Tubingen, en Allemagne, et de l'université Northwestern, aux États-Unis, propose une nouvelle piste. Ils ont élaboré une méthode pour estimer l'utilisation du LLM dans un vaste ensemble d'écrits scientifiques en mesurant les "mots en trop" qui ont commencé à apparaître beaucoup plus fréquemment depuis l'avènement des LLM (soit en 2023 et 2024).


Les résultats suggèrent qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Pour mesurer ces changements de vocabulaire, les chercheurs ont analysé 14 millions de résumés d'articles publiés sur PubMed entre 2010 et 2024, en suivant la fréquence relative de chaque mot apparaissant chaque année. Ils ont ensuite comparé la fréquence attendue de ces mots (sur la base de la ligne de tendance antérieure à 2023) à la fréquence réelle de ces mots dans les résumés de 2023 et 2024, lorsque les LLM (ChatGPT, Gemini, etc.) sont devenus très nombreux sur le marché et ont commencé à être largement utilisés.

L'étude a révélé un certain nombre de mots qui étaient extrêmement rares dans ces résumés scientifiques avant 2023 et qui ont soudainement gagné en popularité après l'introduction des LLM. Le mot "delves", par exemple, apparaît dans 25 fois plus d'articles de 2024 que ne le laissait prévoir la tendance pré-LLM ; des mots comme "showcasing" et "underscores" ont aussi vu leur utilisation multipliée par neuf. Des mots qui étaient auparavant courants sont devenus nettement plus fréquents dans les résumés post-LLM : la fréquence de "potential" a augmenté de 4,1 %, celle de "findings" de 2,7 % et celle de "crucial" de 2,6 %.

Citation Envoyé par Extrait du rapport de l'étude

Les grands modèles de langage (LLM) récents peuvent générer et réviser des textes avec des performances humaines, et ont été largement commercialisés dans des systèmes tels que ChatGPT. Ces modèles présentent des limites évidentes : ils peuvent produire des informations inexactes, renforcer les préjugés existants et être facilement utilisés à mauvais escient. Pourtant, de nombreux scientifiques les utilisent pour faciliter la rédaction de leurs travaux scientifiques. Dans quelle mesure l'utilisation des LLM est-elle répandue dans la littérature académique ?

Pour répondre à cette question, nous utilisons une approche impartiale et à grande échelle, exempte de toute hypothèse sur l'utilisation des LLM dans le monde universitaire. Nous étudions les changements de vocabulaire dans 14 millions de résumés PubMed entre 2010 et 2024, et montrons comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style.

Notre analyse basée sur l'utilisation de mots excédentaires suggère qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, et atteint 30 % pour certains sous-corpus de PubMed. Nous montrons que l'apparition d'assistants de rédaction basés sur les LLM a eu un impact sans précédent sur la littérature scientifique, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de Covid.
Ce type de changement dans l'utilisation des mots pourrait se produire indépendamment de l'utilisation du LLM, bien sûr ; l'évolution naturelle de la langue signifie que les mots passent parfois d'un style à l'autre. Toutefois, les chercheurs ont constaté que, dans l'ère pré-LLM, de telles augmentations massives et soudaines d'une année sur l'autre n'ont été observées que pour les mots liés à des événements sanitaires mondiaux : "ebola" en 2015, "zika" en 2017 et des mots comme "coronavirus", "lockdown" et "pandemic" entre 2020 et 2022. Mais l'usage excessif de certains mots depuis 2023 ne correspond pas à ce schéma.

En effet, alors que les mots utilisés de façon excessive pendant la pandémie de Covid-19 étaient en grande majorité des noms, l'équipe a constaté que les mots dont la fréquence avait augmenté depuis l'avènement des LLM sont en grande majorité des "mots de style" tels que des verbes, des adjectifs et des adverbes : across, additionally, comprehensive, enhancing, exhibited, insights, notably, particularly, within). De plus, il ne s'agit pas d'une remarque totalement nouvelle. Par exemple, la prévalence accrue de l'expression "delve" (approfondir) dans les articles scientifiques a été largement constatée dans un passé récent.

Mais les études antérieures s'appuyaient généralement sur des comparaisons avec des échantillons d'écriture humaine de "vérité de base" ou des listes de marqueurs LLM prédéfinis obtenus en dehors de l'étude. Ici, l'ensemble des résumés antérieurs à 2023 agit comme son propre groupe de contrôle efficace pour montrer comment le choix du vocabulaire a changé dans l'ensemble de données depuis l'arrivée des LLM. En mettant en évidence des centaines de "mots marqueurs" qui sont devenus beaucoup plus fréquents dans l'ère post-LLM, les signes révélateurs de l'utilisation d'un LLM peuvent parfois être faciles à repérer.

Comme indiqué ci-dessus, les pourcentages mesurés peuvent varier considérablement d'un sous-ensemble d'articles à l'autre. Les chercheurs ont constaté que les articles rédigés dans des pays comme la Chine, la Corée du Sud et Taïwan présentaient des "mots marqueurs" dans 15 % des cas. Cela suggère que les LLM pourraient aider les non-natifs à éditer des textes en anglais, ce qui pourrait justifier leur usage excessif. D'autre part, les chercheurs estiment que les locuteurs natifs de l'anglais peuvent [simplement] être plus aptes à remarquer et à supprimer activement les mots de style non naturels des sorties modèles.

Ces derniers pourraient ainsi dissimuler leur utilisation du LLM à ce type d'analyse. Par ailleurs, bien que l'étude puisse aider dans la détection des textes générés par l'IA, elle indique également aux utilisateurs ce qu'ils doivent faire pour passer entre les mailles du filet. Comme la connaissance des "mots marqueurs" révélateurs des LLM commence à se répandre, les rédacteurs humains pourraient devenir plus aptes à retirer ces marqueurs des textes générés avant qu'ils ne soient partagés avec le monde entier. Il est également possible que les LLM effectuent cette analyse eux-mêmes et réduisent l'occurrence de certains mots.

En somme, le défi de la détection des textes générés par l'IA n'est toujours pas résolu. En prenant connaissance de ces découvertes, les étudiants et les chercheurs qui utilisent les LLM pour rédiger leurs travaux pourraient facilement éviter de se faire prendre. Selon certains analystes, ce phénomène pourrait ouvrir la voie à un nouveau métier : des professionnels chargés de débusquer les textes générés par l'IA qui se cachent aujourd'hui dans l'immensité du Web.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la méthode de détection des textes générés par l'IA décrite ci-dessus ?
Selon vous, cette technique peut-elle réellement servir de manière fiable dans la réalité ?
Pourquoi les entreprises ne réussissent-elle pas à proposer à un outil fiable pour la détection des textes générés par l'IA ?
Selon vous, comment peut-on détecter de manière fiable les textes générés par l'IA ?

Voir aussi

OpenAI développe un logiciel pour détecter le texte généré par ChatGPT, plusieurs outils visent à déterminer quels textes ont été générés par IA et lesquels ont été écrits par des humains

Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables

OpenAI lance un outil capable de détecter les images créées par son générateur texte-image DALL-E 3 afin de répondre aux inquiétudes concernant l'influence des contenus générés par l'IA lors des élections

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Membre expert https://www.developpez.com
Le 11/07/2024 à 7:13
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
4  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 11/07/2024 à 11:20
Citation Envoyé par totozor Voir le message
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
Si je lis bien, l'émergence de l'IA est basée sur l'esclavage.
3  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:24
Citation Envoyé par Anthony Voir le message
VALL-E 2 : la nouvelle technologie vocale d'IA de Microsoft atteint pour la première fois la parité avec l'humain, elle est si aboutie que par peur d'une utilisation abusive, elle ne sera pas encore publiée
Alors que l'intelligence artificielle, on peut créer des virus avec, mais ça ne pose pas de problème.
C'est quoi la différence ?
Les remarques émises au sujet de l'intelligence artificielle ont fini par être entendues, ou la synthèse vocale est tellement mieux aboutie ? Ou retarder sa parution aide à promouvoir cette idée ?

Il était question d'un moratoire sur l'IA, je n'ai pas bien suivi, ça ...
2  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:27
Citation Envoyé par VBurel Voir le message
Soit plus de 50 milliards investis dans les startup pour seconde trimestre 2024 !?

Et pendant ce temps, l'Europe a investi combien dans les IT ? juste par curiosité :-)

au moins 1 milliard depuis le début de l'année, rassurez nous ! ?
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
2  0 
Avatar de VBurel
Membre averti https://www.developpez.com
Le 09/07/2024 à 15:52
Citation Envoyé par Gluups Voir le message
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
Quel projet ? :-)
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 09/07/2024 à 15:56
Sachez qu'il y a plein de startups Françaises qui se font racheter par des grosses entreprises US.
Donc il y a des bonnes startups dans les nations européennes.

Et dans les 27,1 milliards de dollars qui ont été investit dans les startups du secteur de l'IA aux États-Unis d’avril à juin, il y a probablement une partie non négligeable qui vient d'investisseurs basés dans des nations européennes.
1  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 10/07/2024 à 7:03
Citation Envoyé par VBurel Voir le message
Quel projet ? :-)
C'est encore mieux.
1  0 
Avatar de Jules34
Membre chevronné https://www.developpez.com
Le 10/07/2024 à 10:38
Citation Envoyé par VBurel Voir le message
Et pendant ce temps, l'Europe a investi combien dans les IT ? juste par curiosité :-)
C'est clair que l'Europe a un grand intérêt à investir dans des startup qui seront rachetés par des américains dès qu'elles deviendront viables.

Comme Silae, Drivy, EFront, People Doc ou Zenly le champion de la géolocalisation racheté par Snapchat !

D'une manière générale les fonds américains représentent environ 40 % des fonds investis dans les startup Française, qui n'ont donc de Français que le numéro au RCS...

Avant de jeter l'argent par les fenêtres il faut avoir un projet pour le pays et les Français. L'idéal serait d'avoir un projet qui serait un peu différent du projet actuel, à savoir faire payer la TVA et les impôts aux idiots de salariés et laisser toute les richesses partir du pays.

La "startup nation" de Macron quoi.
1  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 11/07/2024 à 12:43
A titre de comparaison : https://www.combien-coute.net/cout-de-la-vie/kenya/

En moyenne, le coût de la vie au Kenya en 2024 est 43% moins important qu'en France.

Le salaire mensuel moyen est de : 362€
1L d'essence coûte : 1.5€
Un déjeuner au restaurant : 3.6€
Le prix d'une place de cinéma est 5.8€
La location d'un appartement dans le centre-ville coûte 850€/mois
En moyenne, le prix pour se loger à l'hôtel au Kenya est 54% moins cher par rapport à la France
Le coût de la vie pour habiter (logement, abonnements...) au Kenya est en moyenne 51% moins cher par rapport à la France
Je me suis dit que le niveau de vie était pas forcément le même et j'ai, vite fait, vérifié à quel point, c'est sur que c'est pas pareil qu'en France, en revanche quand on compare le salaire moyen avec le cout de la vie, ça a bien l'air misérable de vivre au Kenya.
1  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 12/07/2024 à 20:37
Citation Envoyé par Gluups Voir le message
Si je lis bien, l'émergence de l'IA est basée sur l'esclavage.
Oui. Et pas uniquement en Afrique: le passage sur la classification des données pour l'IA est dans la dernière partie.
1  0