
Les textes générés par l'IA font de plus en plus parti de notre vie quotidienne. L'auto-complétion dans les courriels et le contenu généré par ChatGPT se généralisent, laissant les humains vulnérables à la tromperie et à la désinformation. Même dans les contextes où l'on s'attend à converser avec un autre être humain, comme les rencontres en ligne, l'utilisation de textes générés par l'IA est en augmentation. Une enquête de McAfee indique que 31 % des adultes prévoient d'utiliser ou utilisent déjà l'IA dans leurs profils de rencontres. Certains des modèles de langage les plus en vogue sont : ChatGPT d'OpenAI, Bard de Google et LLaMA de Meta.
Une étude menée par les chercheurs de l'institut Human-Centered Artificial Intelligence de l'université de Stanford (Stanford HAI) a révélé que les gens parviennent à détecter avec précision les textes générés par l'IA seulement dans 50 à 52 % des cas. Cela correspond à peu près au hasard d'un tirage à pile ou face.
Dans le même temps, une autre étude réalisée par des chercheurs de l'université du Maryland indique que les systèmes de détection existants les plus performants ne peuvent pas détecter de manière fiable les sorties des modèles d'IA de génération de texte dans des scénarios pratiques. Ils estiment que cela pourrait être dangereux pour Internet à l'avenir.
Récemment, une étude réalisée par des chercheurs de l'université de Pennsylvanie révèle que les détecteurs de texte d'IA ne sont pas aussi fiables qu'on le pense. Les détecteurs de texte d'IA sont utilisés pour analyser si un texte est généré par l'IA ou non. Mais ces détecteurs de texte IA sont développés de telle sorte qu'ils ne recherchent que certains signes spécifiques qui peuvent facilement être écrits par des humains également.
Les détecteurs de texte généré par l'IA ne sont pas aussi précis que certains le prétendent
Parfois, les détecteurs d'IA trouvent facilement le texte généré par l'IA, mais ils n'obtiennent pas de bons résultats lorsqu'ils sont confrontés à des textes spécifiques tels que des articles d'actualité. Parfois, ces détecteurs de texte d'IA identifient également des textes entièrement rédigés par des humains comme étant des contenus générés par l'IA.
Les chercheurs de l'étude ont proposé une nouvelle façon de généraliser un texte écrit par une IA en donnant à ces détecteurs un ensemble de données de 10 millions de documents, allant d'articles d'actualité à des blogs et des recettes, et en les comparant.
Un tableau de classement public permettra ensuite de classer les détecteurs d'IA en fonction de leurs performances sur la base de ces ensembles de données. La société a expliqué qu'elle essayait de comparer les détecteurs d'IA afin que, "si quelqu'un propose une nouvelle idée, nous puissions valider que son texte est bien écrit par un être humain."
Depuis la publication de GPT-2 en 2019 et de GPT-3 en 2022, il y a eu de nombreux problèmes concernant les textes produits par les générateurs de textes d'IA. De nombreux enseignants ont également fait part de leurs inquiétudes quant à l'utilisation de LLM par leurs étudiants pour rédiger leurs devoirs et travaux universitaires. De nombreux détecteurs d'IA revendiquent une précision de 99 %, ce qui est trop beau pour être vrai. Certains prétendent même que l'IA est difficile à détecter.
Les chercheurs affirment que les détecteurs d'IA sont faciles à tromper si l'on remplace certains mots et si l'on ajoute des orthographes britanniques aux mots. Certains détecteurs fonctionnent également mieux avec les modèles de texte d'IA sur lesquels ils ont été formés, de sorte qu'ils ne peuvent parfois pas détecter avec précision les textes écrits par des modèles tels que Claude d'Anthropic.
Certains détecteurs d'IA spécialement conçus pour détecter les nouvelles peuvent également éprouver des difficultés avec les recettes de cuisine. Dans l'ensemble, alors que les LLM s'améliorent, les détecteurs d'IA s'efforcent de détecter avec précision les textes écrits par l'IA.
Précision des détecteurs selon les modèles et les domaines
RAID : Un benchmark partagé pour une évaluation robuste des détecteurs de textes générés par l'IA
De nombreux modèles commerciaux et open-source prétendent détecter les textes générés par des machines avec une précision extrêmement élevée (99% ou plus). Cependant, très peu de ces détecteurs sont évalués sur des ensembles de données de référence partagés.
Même lorsqu'ils le sont, les ensembles de données utilisés pour l'évaluation ne sont pas suffisamment difficiles car ils manquent de variations dans la stratégie d'échantillonnage, les attaques adverses et les modèles génératifs open-source.
Des chercheurs présentent RAID : un ensemble de données de référence vaste et difficile pour la détection de textes générés par l'IA. RAID comprend plus de 6 millions de générations couvrant 11 modèles, 8 domaines, 11 attaques adverses et 4 stratégies de décodage.
À l'aide de RAID, ils ont évalué la robustesse hors domaine et la résistance aux attaques adverses de 8 détecteurs à source ouverte et de 4 détecteurs à source fermée. Les résultats montrent que les détecteurs actuels sont facilement trompés par les attaques adverses, les variations dans les stratégies d'échantillonnage, les pénalités de répétition et les modèles génératifs non vus.
Aperçu de RAID
Les détecteurs ne sont pas encore assez robustes mais montrent signes d'amélioration
Les capacités de génération des modèles de langage n'ayant cessé d'augmenter, la détection précise et automatique des textes générés par l'IA est devenue une priorité importante. Les efforts de détection ont même dépassé les limites de la recherche sur le traitement du langage naturel, suscitant des discussions entre les entreprises de médias sociaux et les gouvernements sur la possibilité d'imposer des étiquettes pour les contenus générés par l'IA.
Malgré les intentions protectrices de ces mandats, cette étude montre que de telles réglementations seraient difficiles à appliquer même si elles étaient mises en œuvre. Les détecteurs ne sont pas encore assez robustes pour être déployés à grande échelle ou pour être utilisés dans le cadre d'enjeux importants : de nombreux détecteurs testés sont presque inopérants à des taux de faux positifs faibles, ne parviennent pas à s'adapter à des stratégies de décodage alternatives ou à des pénalités de répétition, présentent des biais évidents pour certains modèles et domaines, et se dégradent rapidement avec des attaques adverses simples de type "boîte noire".
Si ces résultats constatent que les détecteurs ne sont pas suffisamment précis, ils montrent des signes prometteurs d'amélioration. Binoculars, par exemple, a obtenu des résultats impressionnants sur l'ensemble des modèles, même avec des taux de faux positifs extrêmement faibles, Originality a atteint une grande précision dans certains scénarios contraignants, et GPTZero s'est révélé exceptionnellement robuste face aux attaques adverses.
Précision de la détection par rapport au taux de faux positifs
Il est nécessaire d'améliorer les capacités des détecteurs de contenus générés par l'IA
Il est essentiel d'...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.