
Les débuts du chatbot d'intelligence artificielle ChatGPT ont mis le monde en ébullition grâce à sa capacité à produire des textes et des conversations semblables à ceux d'un être humain. Toutefois, selon une étude publiée le 7 juin dans la revue Cell Reports Physical Science, de nombreux signes révélateurs peuvent nous aider à distinguer les écrits des chatbots d'intelligence artificielle de celles des humains. Sur la base de ces signes, les chercheurs ont mis au point un outil permettant d'identifier les écrits scientifiques universitaires générés par l'IA avec une précision de plus de 99 %.
« Nous nous sommes efforcés de créer une méthode accessible, de sorte qu'avec peu de conseils, même des lycéens puissent construire un détecteur d'IA pour différents types d'écrits », explique Heather Desaire, premier auteur de l'étude et professeur à l'université du Kansas. « Il est nécessaire de se pencher sur l'écriture artificielle, et il n'est pas nécessaire d'avoir un diplôme en informatique pour contribuer à ce domaine.
« À l'heure actuelle, l'écriture de l'IA présente des problèmes assez flagrants », explique Heather Desaire. L'un des plus gros problèmes est qu'elle assemble des textes provenant de nombreuses sources et qu'il n'y a aucune sorte de vérification de l'exactitude - c'est un peu comme le jeu « Deux vérités et un mensonge ».
Bien que de nombreux détecteurs de texte intelligents soient disponibles en ligne et donnent d'assez bons résultats, ils n'ont pas été conçus spécifiquement pour la rédaction universitaire. Pour combler cette lacune, l'équipe a cherché à mettre au point un outil plus performant, destiné précisément à cet usage. Elle s'est concentrée sur un type d'article appelé « perspectives », qui donne une vue d'ensemble de sujets de recherche spécifiques rédigés par des scientifiques. L'équipe a sélectionné 64 perspectives et créé 128 articles générés par ChatGPT sur les mêmes sujets de recherche pour entraîner le modèle. En comparant les articles, ils ont trouvé un indicateur de l'écriture AI : la prévisibilité.
Une méthode simple et efficace pour identifier le texte de ChatGPT dans les écrits universitaires
ChatGPT a permis au plus grand nombre d'accéder à l'écriture générée par l'intelligence artificielle (IA), amorçant un changement culturel dans la façon dont les gens travaillent, apprennent et écrivent. Le besoin de distinguer l'écriture humaine de l'IA est maintenant à la fois critique et urgent. Pour répondre à ce besoin, les chercheurs présentent une méthode permettant de distinguer le texte généré par ChatGPT des scientifiques universitaires (humains), en s’appuyant sur des méthodes de classification supervisée répandues et accessibles.
L'approche utilise de nouvelles caractéristiques pour distinguer ces humains de l'IA ; à titre d'exemple, les scientifiques écrivent de longs paragraphes et ont un penchant pour le langage équivoque, utilisant fréquemment des mots tels que « mais », « cependant » et « bien que ». Avec un ensemble de 20 caractéristiques, les chercheurs ont comme dit précédemment construit un modèle qui attribue l'auteur, humain ou IA, avec une précision de plus de 99 %. Cette stratégie pourrait être adaptée et développée par d'autres personnes ayant des compétences de base en matière de classification supervisée, ce qui permettrait d'accéder à de nombreux modèles très précis et ciblés pour détecter l'utilisation de l'IA dans les écrits universitaires et au-delà.
Contrairement à l'IA, les humains ont des structures de paragraphe plus complexes, qui varient en nombre de phrases et en nombre total de mots par paragraphe, ainsi qu'en longueur de phrase. Les préférences en matière de signes de ponctuation et de vocabulaire sont également révélatrices.
Lors des tests, le modèle a obtenu un taux de précision de 100 % pour distinguer les articles de fond générés par l'IA de ceux rédigés par des humains. Pour ce qui est de l'identification des différents paragraphes d'un article, le taux d'exactitude du modèle était de 92 %. Le modèle de l'équipe de recherche a également largement surpassé un détecteur de texte IA disponible sur le marché lors de tests similaires.
L'équipe prévoit ensuite de déterminer l'étendue de l'applicabilité du modèle. Elle souhaite le tester sur des ensembles de données plus importants et sur différents types de textes scientifiques universitaires. À mesure que les chatbots d'IA progressent et deviennent plus sophistiqués, les chercheurs veulent également savoir si leur modèle tiendra la route.
« La première chose que les gens veulent savoir lorsqu'ils entendent parler de cette recherche, c'est si je peux l'utiliser pour savoir si mes étudiants ont réellement écrit leur article », a déclaré Desaire. Bien que le modèle soit très performant pour faire la distinction entre l'IA et les scientifiques, Desaire précise qu'il n'a pas été conçu pour permettre aux éducateurs d'identifier les rédactions d'étudiants générées par l'IA. Toutefois, elle note que les gens peuvent facilement reproduire leurs méthodes pour construire des modèles pour leurs propres besoins.
Développement et amélioration d’un détecteur d’IA basé sur des caractéristiques textuelles simples
Enfin, les spécialistes des données qui développent des détecteurs d'IA et les utilisateurs de ces détecteurs doivent être conscients de la course aux perfectionnements des grands modèles de langage et des méthodes conçues pour les détecter. Une version actualisée de ChatGPT est déjà disponible (GPT-4), et d'autres produits similaires sont en cours de publication. Cette question de la course aux perfectionnements a été l'un des principaux moteurs de notre développement d'une approche qui peut être rapidement déployée sur de petits ensembles de données d'entraînement par des scientifiques de données peu qualifiés.
D'autres chercheurs pourront se joindre à la course aux perfectionnements pour développer des détecteurs d'IA si des stratégies simples - qui peuvent être mises en œuvre et améliorées par des chercheurs n'ayant aucune expérience en analyse de texte ou en modèles de langage de grande taille - peuvent être démontrées comme étant efficaces.
En étendant cette stratégie à d'autres ou à de nouvelles circonstances, plusieurs options supplémentaires pour distinguer les documents pourraient être utilisées en conjonction ou à la place de celles décrites . Premièrement, le nombre de mots populaires ou de types de mots qui varient entre les groupes de formation et de test pourrait être augmenté ; la liste présentée ici ne rend pas compte de manière exhaustive des différences entre ces deux types de texte, et d'autres types de texte pourraient certainement avoir d'autres mots clés qui les distinguent.
Le fait de n'utiliser que 20 caractéristiques introduit une limite potentielle : des auteurs prudents pourraient apporter des modifications minimes au texte produit par ChatGPT afin d'invalider l'utilité de suffisamment de ces caractéristiques pour que le texte passe pour un « texte humain » alors qu'il ne l'est pas. En ne publiant pas de version facilement accessible de cet outil en ligne, nous atténuons quelque peu ce risque, car les chercheurs naïfs ne sauront pas quelles sont les caractéristiques les plus importantes et/ou comment leurs modifications influencent la classification globale de l'écriture.
Une autre stratégie pour améliorer encore ce détecteur pourrait consister à concevoir une caractéristique basée sur une approche utilisée par Gehrmann et al. ; ils ont attribué à chaque mot du document un score pour son utilisation courante ou rare dans le modèle de langage et ont agrégé ces scores en un indicateur numérique unique. Une stratégie similaire pourrait être utilisée pour construire une nouvelle caractéristique à ajouter aux caractéristiques existantes décrites ici, et une telle caractéristique pourrait être plus difficile à manipuler dans la rédaction d'IA.
Une dernière voie possible pour différencier les documents plus longs qu'un paragraphe consiste à identifier des caractéristiques utiles au niveau du document. Par exemple, la diversité de la longueur des paragraphes est plus importante dans les textes générés par des humains que dans ceux générés par ChatGPT. En fait, la simple utilisation de l'écart-type du nombre de mots dans chaque paragraphe d'un document donné permet d'obtenir un indicateur très prédictif de l'origine humaine de l'auteur du document.
L'aire sous la courbe (AUC) pour cette seule caractéristique est de 0,98 pour les données d'apprentissage. Bien que ce calcul unique soit simple, rapide et étonnamment précis, il n'a pas été utilisé dans ce travail parce que la stratégie consistant à attribuer une classe à chaque paragraphe et à effectuer l'attribution finale sur la base de la classe ayant le plus grand nombre de paragraphes attribués a donné des résultats plus précis.
Nous notons que l'utilisation de cette seule caractéristique, l'écart-type de la longueur des paragraphes, est plus prédictive que les affectations de documents complets du détecteur de sortie GPT-2. Dans les cas où les différences au niveau des paragraphes sont difficiles à détecter, l'utilisation de caractéristiques au niveau des documents, en particulier celles qui évaluent la diversité de la longueur des paragraphes, peut accroître la capacité de discrimination du modèle.
L’écriture humaine et l’écriture d’IA : une analyse comparative de quatre catégories de caractéristiques
En comparant manuellement de nombreux exemples dans l'ensemble de formation, les chercheurs ont identifié quatre catégories de caractéristiques qui semblaient utiles pour distinguer l'écriture humaine de celle du chatbot. Il s'agit :
- de la complexité des paragraphes ;
- de la diversité de la longueur des phrases ;
- de l'utilisation différente des signes de ponctuation ;
- des différents « mots populaires ».
Bien que ces catégories de caractéristiques aient été obtenues indépendamment, par le biais de comparaisons de textes, les chercheurs notent que trois des quatre catégories sont similaires à des types de caractéristiques utilisées ailleurs. La diversité de la longueur des phrases est une caractéristique également utilisée dans un détecteur d'IA en ligne ‘’(GPTZero ; https://gptzero.me/)’’, bien que le modèle sous...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.