
Cette révélation soulève des questions importantes sur l’intégrité académique et la manière dont l’IA est en train de redéfinir les méthodes d’apprentissage et d’évaluation. Turnitin a déployé il y a un an un outil de détection d’écriture IA, formé sur un trésor de travaux étudiants ainsi que sur d’autres textes générés par l’IA. Depuis lors, plus de 200 millions de travaux ont été examinés par le détecteur, principalement rédigés par des élèves du secondaire et des étudiants universitaires
L’outil a identifié que 11 % des travaux pourraient contenir un langage écrit par l’IA dans 20 % de leur contenu, avec 3 % des travaux examinés signalés pour avoir 80 % ou plus de contenu écrit par l’IA.
Malgré les défauts de l’IA, tels que la création de faits fictifs et la citation de références académiques qui n’existent pas réellement, les étudiants ont utilisé des chatbots pour la recherche, l’organisation des idées et même comme prête-plume. Des traces de chatbots ont même été trouvées dans des écrits académiques évalués par des pairs et publiés.
La détection de l’utilisation de l’IA est complexe. Ce n’est pas aussi simple que de signaler un plagiat, car le texte généré reste un texte original. De plus, il y a une nuance dans la façon dont les étudiants utilisent l’IA générative ; certains peuvent demander à des chatbots d’écrire leurs travaux pour eux en gros blocs ou en entier, tandis que d’autres peuvent utiliser les outils comme une aide ou un partenaire de brainstorming.
Les outils de détection eux-mêmes présentent un risque de biais
Une étude réalisée en 2023 a révélé un taux de faux positifs de 61,3 % lors de l'évaluation des examens du Test of English as a Foreign Language (TOEFL) à l'aide de sept détecteurs d'intelligence artificielle différents. L'étude n'a pas examiné la version de Turnitin. La société affirme qu'elle a entraîné son détecteur sur des textes rédigés par des apprenants d'anglais et par des anglophones de naissance.
Dans notre étude, nous avons évalué les performances de sept détecteurs GPT largement utilisés sur 91 essais TOEFL (Test of English as a Foreign Language) provenant d'un forum chinois et 88 essais d'élèves américains de quatrième (eight-grade) provenant de l'ensemble de données ASAP de la Fondation Hewlett. Alors que les détecteurs ont correctement classé les essais des étudiants américains, ils ont incorrectement étiqueté plus de la moitié des essais du TOEFL comme étant « générés par l'IA » (taux moyen de faux positifs : 61,3 %).
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Une étude publiée en octobre a montré que Turnitin était l'un des détecteurs de langue les plus précis parmi 16 détecteurs d'IA dans le cadre d'un test au cours duquel l'outil a examiné des travaux de premier cycle et des travaux générés par l'IA.
Cette étude évalue la précision de 16 détecteurs de texte d'IA publiquement disponibles pour distinguer les écrits générés par l'IA de ceux générés par l'homme. Les documents évalués comprennent 42 essais de premier cycle générés par ChatGPT-3.5, 42 générés par ChatGPT-4, et 42 écrits par des étudiants dans un cours de composition de première année sans l'utilisation de l'IA.
Les performances de chaque détecteur ont été évaluées en fonction de sa précision globale, de sa précision pour chaque type de document, de son caractère décisif (nombre relatif de réponses incertaines), du nombre de faux positifs (documents générés par des humains et désignés comme IA par le détecteur) et du nombre de faux négatifs (documents générés par l'IA et désignés comme humains).
Trois détecteurs - Copyleaks, TurnItIn et Originality.ai - ont une grande précision avec les trois ensembles de documents. Bien que la plupart des 13 autres détecteurs puissent faire la distinction entre les documents GPT-3.5 et les documents générés par l'homme avec une précision raisonnablement élevée, ils sont généralement inefficaces pour faire la distinction entre les documents GPT-4 et ceux rédigés par des étudiants de premier cycle. Dans l'ensemble, les détecteurs qui exigent une inscription et un paiement ne sont que légèrement plus précis que les autres.
Les performances de chaque détecteur ont été évaluées en fonction de sa précision globale, de sa précision pour chaque type de document, de son caractère décisif (nombre relatif de réponses incertaines), du nombre de faux positifs (documents générés par des humains et désignés comme IA par le détecteur) et du nombre de faux négatifs (documents générés par l'IA et désignés comme humains).
Trois détecteurs - Copyleaks, TurnItIn et Originality.ai - ont une grande précision avec les trois ensembles de documents. Bien que la plupart des 13 autres détecteurs puissent faire la distinction entre les documents GPT-3.5 et les documents générés par l'homme avec une précision raisonnablement élevée, ils sont généralement inefficaces pour faire la distinction entre les documents GPT-4 et ceux rédigés par des étudiants de premier cycle. Dans l'ensemble, les détecteurs qui exigent une inscription et un paiement ne sont que légèrement plus précis que les autres.
Les écoles qui utilisent Turnitin ont eu accès au logiciel de détection de l'IA pendant une période pilote gratuite, qui s'est achevée au début de cette année. Selon Annie Chechitelli, chef de produit de l'entreprise, la majorité des clients du service ont choisi d'acheter le logiciel de détection de l'IA. Mais les risques de faux positifs et de préjugés à l'encontre des apprenants d'anglais ont conduit certaines universités à abandonner ces outils pour l'instant. L'université d'État de Montclair, dans le New Jersey, a annoncé en novembre qu'elle cesserait d'utiliser le détecteur d'IA de Turnitin. L'université Vanderbilt et l'université Northwestern ont fait de même l'été dernier.
« C'est difficile. Je comprends que les gens veuillent un outil », déclare Emily Isaacs, directrice exécutive de l'Office of Faculty Excellence à l'université Montclair. Mais Emily Isaacs explique que l'université est préoccupée par les résultats potentiellement biaisés des détecteurs d'intelligence artificielle, ainsi que par le fait que les outils ne peuvent pas fournir de confirmation comme c'est le cas pour le plagiat. En outre, l'université de Montclair ne souhaite pas interdire de manière générale l'IA, qui aura sa place dans le monde universitaire. Avec le temps et une plus grande confiance dans les outils, les politiques pourraient changer. « Il ne s'agit pas d'une décision définitive, mais d'une décision immédiate », précise Isaacs.
Selon Chechitelli, l'outil Turnitin ne devrait pas être le seul élément à prendre en compte pour décider de la réussite ou de l'échec d'un étudiant. Au contraire, c'est l'occasion pour les enseignants d'entamer des conversations avec les élèves qui abordent toutes les nuances de l'utilisation de l'IA générative. « Les gens ne savent pas vraiment où se situe la limite », dit-elle.
L'utilisation de l'IA dans le processus de notation par les enseignants complexifie le problème
Les enseignants, comprenant la situation, souhaitent tenir les étudiants responsables de l’utilisation de l’IA générative sans autorisation ni divulgation. Mais cela nécessite un moyen fiable de prouver que l’IA a été utilisée dans un devoir donné. Les instructeurs ont parfois tenté de trouver leurs propres solutions pour détecter l’IA dans l’écriture, utilisant des méthodes non testées pour faire respecter les règles, ce qui a causé du stress chez les étudiants. Par exemple, en mai, un professeur de la Texas A&M University-Commerce a accusé sa classe d'avoir utilisé le ChatGPT, mettant ainsi en péril les diplômes.
Jared Mumm, enseignant au département des sciences agricoles et des ressources naturelles, aurait dit aux étudiants qu'ils recevraient un "X" dans le cours après avoir utilisé ChatGTP pour déterminer s'ils avaient utilisé le logiciel pour rédiger leurs travaux finaux. Il a indiqué qu'il avait testé chaque devoir deux fois et que le bot avait prétendu avoir rédigé tous les devoirs finaux.
« Je copie et colle vos réponses dans [ChatGPT] et [il] me dira si le programme a généré le contenu », selon l'e-mail. Les étudiants signalés comme tricheurs « recevaient un 0 ». « Je ne noterai pas ChatGPT », a-t-il écrit sur le devoir d'un élève. « Je dois évaluer ce que vous apprenez, pas [ce que produit] un ordinateur ».
Le courrier électronique a semé la panique dans la classe, certains élèves craignant que leur diplôme ne soit menacé. Une élève de terminale, qui avait obtenu[/ce que produit]...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.