Les textes générés par l'IA font de plus en plus parti de notre vie quotidienne. L'auto-complétion dans les courriels et le contenu généré par ChatGPT se généralisent, laissant les humains vulnérables à la tromperie et à la désinformation. Même dans les contextes où l'on s'attend à converser avec un autre être humain, comme les rencontres en ligne, l'utilisation de textes générés par l'IA est en augmentation. Une enquête de McAfee indique que 31 % des adultes prévoient d'utiliser ou utilisent déjà l'IA dans leurs profils de rencontres. Certains des modèles de langage les plus en vogue sont : ChatGPT d'OpenAI, Bard de Google et LLaMA de Meta.
Une étude menée par les chercheurs de l'institut Human-Centered Artificial Intelligence de l'université de Stanford (Stanford HAI) a révélé que les gens parviennent à détecter avec précision les textes générés par l'IA seulement dans 50 à 52 % des cas. Cela correspond à peu près au hasard d'un tirage à pile ou face.
Dans le même temps, une autre étude réalisée par des chercheurs de l'université du Maryland indique que les systèmes de détection existants les plus performants ne peuvent pas détecter de manière fiable les sorties des modèles d'IA de génération de texte dans des scénarios pratiques. Ils estiment que cela pourrait être dangereux pour Internet à l'avenir.
Récemment, une étude réalisée par des chercheurs de l'université de Pennsylvanie révèle que les détecteurs de texte d'IA ne sont pas aussi fiables qu'on le pense. Les détecteurs de texte d'IA sont utilisés pour analyser si un texte est généré par l'IA ou non. Mais ces détecteurs de texte IA sont développés de telle sorte qu'ils ne recherchent que certains signes spécifiques qui peuvent facilement être écrits par des humains également.
Les détecteurs de texte généré par l'IA ne sont pas aussi précis que certains le prétendent
Parfois, les détecteurs d'IA trouvent facilement le texte généré par l'IA, mais ils n'obtiennent pas de bons résultats lorsqu'ils sont confrontés à des textes spécifiques tels que des articles d'actualité. Parfois, ces détecteurs de texte d'IA identifient également des textes entièrement rédigés par des humains comme étant des contenus générés par l'IA.
Les chercheurs de l'étude ont proposé une nouvelle façon de généraliser un texte écrit par une IA en donnant à ces détecteurs un ensemble de données de 10 millions de documents, allant d'articles d'actualité à des blogs et des recettes, et en les comparant.
Un tableau de classement public permettra ensuite de classer les détecteurs d'IA en fonction de leurs performances sur la base de ces ensembles de données. La société a expliqué qu'elle essayait de comparer les détecteurs d'IA afin que, "si quelqu'un propose une nouvelle idée, nous puissions valider que son texte est bien écrit par un être humain."
Depuis la publication de GPT-2 en 2019 et de GPT-3 en 2022, il y a eu de nombreux problèmes concernant les textes produits par les générateurs de textes d'IA. De nombreux enseignants ont également fait part de leurs inquiétudes quant à l'utilisation de LLM par leurs étudiants pour rédiger leurs devoirs et travaux universitaires. De nombreux détecteurs d'IA revendiquent une précision de 99 %, ce qui est trop beau pour être vrai. Certains prétendent même que l'IA est difficile à détecter.
Les chercheurs affirment que les détecteurs d'IA sont faciles à tromper si l'on remplace certains mots et si l'on ajoute des orthographes britanniques aux mots. Certains détecteurs fonctionnent également mieux avec les modèles de texte d'IA sur lesquels ils ont été formés, de sorte qu'ils ne peuvent parfois pas détecter avec précision les textes écrits par des modèles tels que Claude d'Anthropic.
Certains détecteurs d'IA spécialement conçus pour détecter les nouvelles peuvent également éprouver des difficultés avec les recettes de cuisine. Dans l'ensemble, alors que les LLM s'améliorent, les détecteurs d'IA s'efforcent de détecter avec précision les textes écrits par l'IA.
Précision des détecteurs selon les modèles et les domaines
RAID : Un benchmark partagé pour une évaluation robuste des détecteurs de textes générés par l'IA
De nombreux modèles commerciaux et open-source prétendent détecter les textes générés par des machines avec une précision extrêmement élevée (99% ou plus). Cependant, très peu de ces détecteurs sont évalués sur des ensembles de données de référence partagés.
Même lorsqu'ils le sont, les ensembles de données utilisés pour l'évaluation ne sont pas suffisamment difficiles car ils manquent de variations dans la stratégie d'échantillonnage, les attaques adverses et les modèles génératifs open-source.
Des chercheurs présentent RAID : un ensemble de données de référence vaste et difficile pour la détection de textes générés par l'IA. RAID comprend plus de 6 millions de générations couvrant 11 modèles, 8 domaines, 11 attaques adverses et 4 stratégies de décodage.
À l'aide de RAID, ils ont évalué la robustesse hors domaine et la résistance aux attaques adverses de 8 détecteurs à source ouverte et de 4 détecteurs à source fermée. Les résultats montrent que les détecteurs actuels sont facilement trompés par les attaques adverses, les variations dans les stratégies d'échantillonnage, les pénalités de répétition et les modèles génératifs non vus.
Aperçu de RAID
Les détecteurs ne sont pas encore assez robustes mais montrent signes d'amélioration
Les capacités de génération des modèles de langage n'ayant cessé d'augmenter, la détection précise et automatique des textes générés par l'IA est devenue une priorité importante. Les efforts de détection ont même dépassé les limites de la recherche sur le traitement du langage naturel, suscitant des discussions entre les entreprises de médias sociaux et les gouvernements sur la possibilité d'imposer des étiquettes pour les contenus générés par l'IA.
Malgré les intentions protectrices de ces mandats, cette étude montre que de telles réglementations seraient difficiles à appliquer même si elles étaient mises en œuvre. Les détecteurs ne sont pas encore assez robustes pour être déployés à grande échelle ou pour être utilisés dans le cadre d'enjeux importants : de nombreux détecteurs testés sont presque inopérants à des taux de faux positifs faibles, ne parviennent pas à s'adapter à des stratégies de décodage alternatives ou à des pénalités de répétition, présentent des biais évidents pour certains modèles et domaines, et se dégradent rapidement avec des attaques adverses simples de type "boîte noire".
Si ces résultats constatent que les détecteurs ne sont pas suffisamment précis, ils montrent des signes prometteurs d'amélioration. Binoculars, par exemple, a obtenu des résultats impressionnants sur l'ensemble des modèles, même avec des taux de faux positifs extrêmement faibles, Originality a atteint une grande précision dans certains scénarios contraignants, et GPTZero s'est révélé exceptionnellement robuste face aux attaques adverses.
Précision de la détection par rapport au taux de faux positifs
Il est nécessaire d'améliorer les capacités des détecteurs de contenus générés par l'IA
Il est essentiel d'évaluer ouvertement les détecteurs sur des ressources partagées importantes et diversifiées afin d'accélérer les progrès et la confiance dans la détection. L'évaluation de la robustesse est particulièrement importante pour la détection, et son importance ne fait que croître à mesure que l'échelle du déploiement public augmente.
Il est bon aussi de rappeler que la détection n'est qu'un outil au service d'une motivation plus large et encore plus précieuse : la prévention des dommages causés par la diffusion massive de textes. La détection de textes générés par l'IA a longtemps été un moyen utile d'identifier les textes préjudiciables, mais les modèles de langage se sont améliorés au point que les textes générés sont souvent légitimes et non préjudiciables.
Par conséquent, la détection d'éléments nuisibles spécifiques - comme la désinformation, les discours haineux et les abus - devrait primer sur la question de savoir si le texte a été rédigé par l'IA ou non. Le fait de savoir si un texte a été généré par l'IA donne toutefois des indications sur les types d'erreurs auxquels on peut s'attendre ou sur la récurrence des faits cités dans le texte.
Les chercheurs concluent l'étude en déclarant :
Nous espérons que nos analyses et l'ensemble de données RAID constituent une étape vers un avenir où les outils de détection de l'IA seront intégrés en toute sécurité dans la société, dans le cadre d'une approche multidimensionnelle visant à réduire les dommages. Nous publions nos données ainsi qu'un classement afin d'encourager la recherche future. Nous encourageons les travaux futurs à s'appuyer sur cette base en incluant davantage de modèles, de langages et de paramètres de génération dans les futures ressources partagées.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Quand les détecteurs d'IA se trompent : les rédacteurs perdent leur emploi, accusés à tort d'utiliser l'IA, ce qui soulève des questions sur la fiabilité de ces technos et leurs implications pour l'emploi
Écriture académique à l'ère de l'IA : progrès ou problème ? Les étudiants rédigent probablement des millions d'articles à l'aide de l'IA, selon une étude menée par Turnitin
OpenAI a mis au point un système capable d'identifier les textes rédigés par ChatGPT mais hésite à le déployer, car il pourrait stigmatiser l'utilisation de ChatGPT et lui faire perdre des utilisateurs