IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les outils de détection de l'IA ne peuvent pas prouver qu'un texte a été généré par l'IA
Par Sean Goedecke

Le , par Sean Goedecke

7PARTAGES

4  0 
Les outils de détection de l'IA ne peuvent pas prouver qu'un texte a été généré par l'IA, par Sean Goedecke

Le succès fulgurant de l'IA générative a donné naissance à une sous-industrie d'un milliard de dollars, celle des « outils de détection de l'IA » : des outils qui prétendent vous dire si un texte a été écrit par un être humain ou généré par un outil d'IA tel que ChatGPT. Comment cela pourrait-il fonctionner ?

Je trouve ces outils à la fois impressionnants et utiles, et je pense qu'ils vont probablement s'améliorer. Cependant, je crains que le grand public ne surestime leur fiabilité. Les outils de détection de l'IA ne peuvent pas prouver qu'un texte a été généré par l'IA.

Pourquoi la détection de l'IA est difficile

Ma première réaction lorsque j'ai entendu parler de ces outils a été « cela ne peut pas fonctionner ». Je pense que cette première réaction est globalement correcte, car l'idée centrale des outils de détection de l'IA, à savoir qu'il existe une différence intrinsèque entre les textes générés par des humains et ceux générés par l'IA, est fondamentalement erronée0.

Les grands modèles linguistiques apprennent à partir d'énormes ensembles de textes écrits par des humains. Ils apprennent à générer des textes aussi proches que possible des textes contenus dans leurs données d'entraînement. Ce sont ces données qui déterminent la « voix » de base d'un modèle d'IA, et non le fait qu'il s'agisse d'un modèle d'IA. Un modèle entraîné sur Shakespeare aura une voix similaire à celle de Shakespeare, et ainsi de suite. Vous pourriez entraîner mille modèles différents sur mille ensembles de données d'entraînement différents sans trouver une « voix de modèle » ou une signature commune à tous.

Nous pouvons donc affirmer (presque a priori) que les outils de détection de l'IA ne peuvent pas prouver qu'un texte a été généré par l'IA. Tout ce qui est généré par un modèle linguistique est, par définition, le genre de chose qui aurait pu être généré par un humain.

Pourquoi les outils de détection de l'IA pourraient quand même fonctionner

Mais bien sûr, il est possible de savoir quand quelque chose a été écrit par l'IA ! Lorsque je lis les réponses sur Twitter, celles qui ont manifestement été générées par un LLM sautent aux yeux. J'ai écrit à ce sujet dans Pourquoi les mauvais contenus générés par l'IA ou "AI slop" sont-ils si désagréables à lire ? Comment est-ce possible, alors qu'il est impossible de prouver qu'un texte a été écrit par l'IA ?

Une partie de la réponse pourrait simplement être que les modèles d'IA de la génération actuelle ont un « style maison » vraiment agaçant, et que les humains qui écrivent dans le même style sont tout aussi agaçants. Quand je lis la première phrase d'un article de blog et que je me dis « oh, c'est de l'IA bâclée, inutile de continuer à lire », je me fiche en réalité de savoir s'il s'agit d'IA ou non. Si c'est un humain, il écrit toujours dans le style de l'IA bâclée, et je n'ai toujours pas envie de lire la suite de l'article.

Cependant, je pense qu'il y a plus que cela. Claude ressemble beaucoup à ChatGPT la plupart du temps, même s'il s'agit de modèles différents, entraînés de manière différente sur des données (au moins partiellement) différentes. Je pense que le scénario optimiste pour les outils de détection de l'IA se présente comme suit :

- Le RLHF et le réglage des instructions/de la sécurité poussent tous les LLM puissants vers le même type de ton et de style.

- Ce ton et ce style peuvent être détectés automatiquement en entraînant un modèle de classification

- Bien sûr, il est possible pour les utilisateurs techniquement sophistiqués d'utiliser des LLM abliterés ou des modèles ouverts moins ajustés en matière de sécurité, mais 99 % des utilisateurs se contenteront d'utiliser ChatGPT ou Claude (en particulier s'ils sont suffisamment paresseux pour tricher sur leurs dissertations).

- Ainsi, un « détecteur de style prosaïque ChatGPT/Claude/Gemini » assez simple peut vous permettre de détecter 90 % des personnes qui utilisent des LLM pour rédiger leurs dissertations.

Je trouve cela assez convaincant, à condition que vous acceptiez un taux de réussite de 90 %. Un taux de réussite de 90 % peut être étonnamment mauvais si le taux de base est faible, comme l'illustre l'exemple classique du théorème de Bayes. Si 10 % des dissertations d'une classe sont rédigées par une IA et que votre détecteur est précis à 90 %, alors seule la moitié des dissertations qu'il signale seront réellement rédigées par une IA. Si un outil de détection d'IA pense qu'un texte est rédigé par une IA, vous devez le considérer comme « quelque peu suspect » plutôt que comme une preuve concluante.

Comment fonctionnent les outils de détection de l'IA ?

Il existe plusieurs approches différentes pour créer des outils de détection de l'IA. L'approche naïve, dont je n'ai trouvé aucun exemple concret, consisterait à entraîner un simple classificateur de texte sur un ensemble de textes rédigés par des humains et par l'IA. Apparemment, cela ne fonctionne pas très bien. Les auteurs de l'article Ghostbuster ont essayé cette approche et ont conclu qu'il était plus facile d'entraîner un classificateur sur les logits eux-mêmes : ils font passer chaque document candidat par une série de LLM simples, enregistrent le degré d'« accord » de chaque LLM avec le texte, puis entraînent leur classificateur sur ces données. DNA-GPT adopte une approche encore plus simple : ils tronquent un document candidat, régénèrent la dernière moitié via des LLM de pointe, puis la comparent à la dernière moitié réelle.
L'article le plus impressionnant que j'ai lu est celui de Pangram Labs sur EditLens. EditLens entraîne un modèle sur des textes qui ont été modifiés à des degrés divers par l'IA, et non générés à partir de zéro, afin que le modèle puisse apprendre à prédire le degré d'implication de l'IA dans un texte particulier. Cela permet d'obtenir un classificateur bien plus performant qu'un modèle strict de type « IA ou pas », car chaque exemple enseigne au modèle une valeur numérique plutôt qu'une seule information.

Un point évident : tous ces outils utilisent eux-mêmes l'IA. Il n'y a tout simplement aucun moyen de détecter la présence d'une écriture IA sans former son propre modèle ou sans effectuer une inférence via des modèles de pointe existants. C'est une mauvaise nouvelle pour les personnes les plus farouchement opposées à l'IA, qui préfèrent ne pas utiliser l'IA pour quelque raison que ce soit, même pour détecter d'autres personnes qui l'utilisent. Cela signifie également que, comme je l'ai déjà dit et je le répète, les outils de détection de l'IA ne peuvent pas prouver qu'un texte est généré par l'IA. Même les meilleurs outils de détection peuvent seulement affirmer que c'est extrêmement probable.

Outils d'humanisation

Il existe une sous-sous-industrie d'outils « d'humanisation » qui visent à convertir votre texte généré par l'IA en un texte qui sera jugé « humain » par les outils de détection de l'IA. Certains outils gratuits de détection de l'IA sont en fait des entonnoirs de vente pour ces outils d'humanisation et produisent donc délibérément beaucoup de faux positifs afin que les utilisateurs paient pour le service d'humanisation. Par exemple, j'ai soumis l'un de mes articles de blog1 à JustDone, qui l'a évalué comme étant généré à 90 % par l'IA et m'a proposé de le corriger pour la modique somme de 40 dollars par mois.

Ces outils ne le disent pas ouvertement, mais bien sûr, le processus d'« humanisation » consiste à faire passer votre texte par un LLM qui est soit programmé, soit réglé pour produire un contenu qui ressemble moins à du LLM. Je trouve cela assez ironique. Il y a probablement beaucoup d'étudiants qui ont été convaincus par l'un de ces outils de faire générer par un LLM leur dissertation écrite à la main, par paranoïa (justifiée) qu'un faux positif leur causerait de réels problèmes avec leur école ou leur université.

Faux positifs et préjudice social

Il est dans l'intérêt de presque tout le monde de prétendre que ces outils sont meilleurs qu'ils ne le sont en réalité. Les entreprises qui composent l'industrie des outils de détection de l'IA, qui pèse plusieurs milliards de dollars, veulent évidemment faire croire qu'elles vendent un outil parfaitement fiable. Les administrateurs des universités et des écoles veulent faire croire qu'ils maîtrisent le problème. Les internautes aiment ridiculiser les gens en publiant une capture d'écran qui « prouve » qu'ils copient leurs messages à partir de ChatGPT.

Même les laboratoires d'IA eux-mêmes aimeraient prétendre que la détection de l'IA est facile et fiable, car cela les déchargerait d'une partie de la responsabilité qu'ils portent pour avoir effectivement détruit le système éducatif. OpenAI a en fait lancé son propre outil de détection de l'IA en janvier 2023, avant de le retirer six mois plus tard en raison de « son faible taux de précision ».

Les véritables victimes de ce mirage sont les personnes qui essaient d'écrire, mais qui doivent désormais faire face à des accusations injustifiées selon lesquelles elles auraient fait passer des textes rédigés par l'IA pour les leurs. Je connais des étudiants qui remettent en question leur façon d'écrire afin de « moins ressembler à l'IA », ou qui enregistrent leurs frappes au clavier ou prennent des photos de leurs brouillons afin d'avoir des preuves à utiliser contre les faux positifs.

Si vous êtes amené à juger si des personnes utilisent l'IA pour rédiger leurs articles ou leurs essais, je vous invite à rester réaliste quant aux capacités des outils de détection de l'IA. Ils peuvent émettre des hypothèses éclairées sur le fait qu'un texte ait été rédigé par l'IA, mais ce ne sont que des hypothèses éclairées. Cela vaut doublement si vous utilisez un outil de détection qui offre également un service « d'humanisation », car ces outils sont incités à produire des faux positifs.

Les outils de détection de l'IA ne peuvent pas prouver qu'un texte a été généré par l'IA.

Source : "AI detection tools cannot prove that text is AI-generated"

Et vous ?

Pensez-vous que ces affirmations sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?

Voir aussi :

Le raisonnement artificiel basé sur la chaîne de pensée est-il un mirage ? par Sean Goedecke

Les outils pilotés par l'IA et les outils de détection de la tricherie nuisent-ils aux étudiants ? Des étudiants innocents sont accusés à tort de tricherie et leur réussite scolaire est menacée

Les détecteurs de texte généré par l'IA ne sont pas aussi précis que certains le prétendent, selon une évaluation de la robustesse des détecteurs sur le benchmark partagé RAID
Vous avez lu gratuitement 2 846 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !