L’avènement de l’intelligence artificielle (IA) a transformé de nombreux aspects de notre vie quotidienne, et le domaine de l’éducation n’est pas en reste. Récemment, une étude menée par la société Turnitin, spécialisée dans la détection de plagiat, a révélé que les étudiants auraient soumis plus de 22 millions de travaux qui pourraient avoir été rédigés avec l’aide de l’IA au cours de l'année dernière.Cette révélation soulève des questions importantes sur l’intégrité académique et la manière dont l’IA est en train de redéfinir les méthodes d’apprentissage et d’évaluation. Turnitin a déployé il y a un an un outil de détection d’écriture IA, formé sur un trésor de travaux étudiants ainsi que sur d’autres textes générés par l’IA. Depuis lors, plus de 200 millions de travaux ont été examinés par le détecteur, principalement rédigés par des élèves du secondaire et des étudiants universitaires
L’outil a identifié que 11 % des travaux pourraient contenir un langage écrit par l’IA dans 20 % de leur contenu, avec 3 % des travaux examinés signalés pour avoir 80 % ou plus de contenu écrit par l’IA.
Malgré les défauts de l’IA, tels que la création de faits fictifs et la citation de références académiques qui n’existent pas réellement, les étudiants ont utilisé des chatbots pour la recherche, l’organisation des idées et même comme prête-plume. Des traces de chatbots ont même été trouvées dans des écrits académiques évalués par des pairs et publiés.
La détection de l’utilisation de l’IA est complexe. Ce n’est pas aussi simple que de signaler un plagiat, car le texte généré reste un texte original. De plus, il y a une nuance dans la façon dont les étudiants utilisent l’IA générative ; certains peuvent demander à des chatbots d’écrire leurs travaux pour eux en gros blocs ou en entier, tandis que d’autres peuvent utiliser les outils comme une aide ou un partenaire de brainstorming.
Les outils de détection eux-mêmes présentent un risque de biais
Une étude réalisée en 2023 a révélé un taux de faux positifs de 61,3 % lors de l'évaluation des examens du Test of English as a Foreign Language (TOEFL) à l'aide de sept détecteurs d'intelligence artificielle différents. L'étude n'a pas examiné la version de Turnitin. La société affirme qu'elle a entraîné son détecteur sur des textes rédigés par des apprenants d'anglais et par des anglophones de naissance.
Dans notre étude, nous avons évalué les performances de sept détecteurs GPT largement utilisés sur 91 essais TOEFL (Test of English as a Foreign Language) provenant d'un forum chinois et 88 essais d'élèves américains de quatrième (eight-grade) provenant de l'ensemble de données ASAP de la Fondation Hewlett. Alors que les détecteurs ont correctement classé les essais des étudiants américains, ils ont incorrectement étiqueté plus de la moitié des essais du TOEFL comme étant « générés par l'IA » (taux moyen de faux positifs : 61,3 %).
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Une étude publiée en octobre a montré que Turnitin était l'un des détecteurs de langue les plus précis parmi 16 détecteurs d'IA dans le cadre d'un test au cours duquel l'outil a examiné des travaux de premier cycle et des travaux générés par l'IA.
Cette étude évalue la précision de 16 détecteurs de texte d'IA publiquement disponibles pour distinguer les écrits générés par l'IA de ceux générés par l'homme. Les documents évalués comprennent 42 essais de premier cycle générés par ChatGPT-3.5, 42 générés par ChatGPT-4, et 42 écrits par des étudiants dans un cours de composition de première année sans l'utilisation de l'IA.
Les performances de chaque détecteur ont été évaluées en fonction de sa précision globale, de sa précision pour chaque type de document, de son caractère décisif (nombre relatif de réponses incertaines), du nombre de faux positifs (documents générés par des humains et désignés comme IA par le détecteur) et du nombre de faux négatifs (documents générés par l'IA et désignés comme humains).
Trois détecteurs - Copyleaks, TurnItIn et Originality.ai - ont une grande précision avec les trois ensembles de documents. Bien que la plupart des 13 autres détecteurs puissent faire la distinction entre les...
Les performances de chaque détecteur ont été évaluées en fonction de sa précision globale, de sa précision pour chaque type de document, de son caractère décisif (nombre relatif de réponses incertaines), du nombre de faux positifs (documents générés par des humains et désignés comme IA par le détecteur) et du nombre de faux négatifs (documents générés par l'IA et désignés comme humains).
Trois détecteurs - Copyleaks, TurnItIn et Originality.ai - ont une grande précision avec les trois ensembles de documents. Bien que la plupart des 13 autres détecteurs puissent faire la distinction entre les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.