La peur des étudiants d'utiliser l'IA générative et la montée en puissance d'outils douteux de « vérification » de l'IA peuvent-elles créer une culture dépourvue de créativité ? C'est un sujet qui, curieusement, mérite d'être approfondi.
En début d'année, des articles ont émergé dans la presse parlant du projet de loi californien SB 942. Ce projet de loi obligerait les entreprises spécialisées dans l'IA à proposer gratuitement un outil de détection de l'IA, en dépit du fait que ces outils sont notoirement peu fiables et sujets à des absurdités. Comme indiqué dans la presse, le projet de loi adopte une approche « plus difficile pour les nerds » pour réglementer une technologie que ses partisans ne comprennent pas.
Le projet de loi SB 942 a continué à progresser et vient d'être adopté par l'Assemblée de Californie. Il est maintenant sur le bureau du gouverneur Newsom, qui pourrait le signer.
L’essor des vérificateurs de texte IA et les conséquences sur l’écriture des étudiants
Les vérificateurs de texte IA sont conçus pour détecter les contenus générés par des machines. Cependant, leur efficacité est souvent remise en question. Selon une étude récente, ces outils peuvent facilement être trompés et ont tendance à produire des faux positifs, accusant à tort des étudiants d’avoir utilisé des IA. Cette situation crée une pression sur les étudiants pour qu’ils écrivent de manière plus mécanique et prévisible, afin de ne pas être suspectés d’utiliser des outils d’IA.
Pour éviter d’être accusés de tricherie, de nombreux étudiants modifient leur style d’écriture pour qu’il soit moins créatif et plus conforme aux attentes des vérificateurs de texte IA. Cela peut inclure l’utilisation de phrases courtes, de structures de phrases simples et de vocabulaire limité. En conséquence, les étudiants risquent de perdre leur voix unique et leur créativité, se conformant à un modèle d’écriture plus robotique.
Le cas d'un parent
Ci-dessous les remarques d'un parent.
L'un de mes enfants avait un devoir d'anglais. Il devait lire la célèbre nouvelle de Kurt Vonnegut, Harrison Bergeron, et rédiger un court essai à son sujet. Comme j'écris beaucoup, mon enfant m'a demandé de relire son essai et de lui donner des conseils. J'ai fait quelques suggestions générales sur la manière d'améliorer la fluidité du texte, car il ressemblait beaucoup à un premier jet standard : un peu guindé. Mon fils est parti travailler sur une réécriture.
Si vous ne connaissez pas l'histoire de Harrison Bergeron, il s'agit d'une société qui cherche à imposer « l’égalité » en imposant des « handicaps » à tous ceux qui excellent dans quelque domaine que ce soit, afin de les ramener au plus petit dénominateur commun (par exemple, des masques laids pour les jolies personnes, l'obligation de porter des poids supplémentaires pour les personnes fortes). L'une des morales de cette histoire porte sur les dangers qu'il y a à vouloir imposer l'égalité d'une manière qui limite l'excellence et la créativité.
Plus tard dans la journée, le jeune est venu avec son Chromebook fourni par l'école, sur lequel Grammarly Pro est préinstallé. Les élèves sont encouragés à l'utiliser pour améliorer leur écriture. L'outil dispose notamment d'un « AI Checker » qui tente de déterminer si le texte soumis a été écrit par une IA.
Cet outil est similaire aux « vérificateurs de plagiat » qui existent depuis quelques décennies. En fait, le « contrôle » de Grammarly couvre à la fois l'IA et le plagiat (c'est du moins ce qu'il dit). Ces systèmes ont toujours eu des problèmes, notamment en ce qui concerne les faux positifs. Et il semble que les vérificateurs d'IA soient (sans surprise) pires.
Il s'avère que Grammarly n'a introduit cette fonctionnalité qu'il y a quelques semaines. Heureusement, l'annonce de Grammarly indique très clairement que la détection de l'IA est assez incertaine :
Les détecteurs d'IA sont une technologie émergente et inexacte. Lorsqu'un détecteur d'IA affirme avec certitude que le contenu analysé contient de l'IA, il n'agit pas de manière responsable. Aucun détecteur d'IA ne peut déterminer avec certitude si l'IA a été utilisée pour produire un texte. La précision de ces outils peut varier en fonction des algorithmes utilisés et du texte analysé.
Dans son communiqué, Grammarly affirme qu'en raison de la fragilité de ces outils, il « fait les choses différemment » des autres outils de vérification de l'IA. Il affirme notamment que son propre outil est plus transparent :
La détection de l'IA de Grammarly montre aux utilisateurs quelle partie de leur texte, le cas échéant, semble avoir été générée par l'IA, et nous fournissons des conseils sur l'interprétation des résultats. Ce pourcentage ne répond pas forcément à la question de savoir « pourquoi » le texte a été signalé. Toutefois, il permet au rédacteur d'attribuer les sources de manière appropriée, de réécrire le contenu et d'atténuer le risque d'être accusé à tort de plagiat par l'IA. Cette approche est similaire à nos capacités de détection du plagiat, qui aident les rédacteurs à identifier et à réviser les plagiats potentiels, garantissant ainsi l'originalité et l'authenticité de leur travail.
Pour être clair, la dissertation peut toujours être rendue. Rien n'indique que l'enseignant s'appuie sur le vérificateur d'IA, ni même qu'il l'utilise. Lorsque j'ai mentionné tout cela sur Bluesky, d'autres enseignants m'ont dit qu'ils savaient qu'il fallait ignorer tout score inférieur à 60 %, car il s'agissait probablement d'un faux positif. Mais mon enfant est raisonnablement troublé par le fait que si le vérificateur d'IA suggère que la dissertation semble avoir été écrite par une IA, cela pourrait signifier qu'il y a un problème avec la dissertation.
C'est à ce moment-là que nous avons commencé à chercher ce qui pouvait bien être à l'origine de ce score de 17 %. La cible immédiate était un vocabulaire plus avancé (le problème qui avait déjà été identifié avec « devoid »).
L'essai utilisait le mot « delve » (plonger), qui est maintenant devenu une sorte de punchline car il apparaît dans tous les travaux générés par l'IA.
Un cercle vicieux
Cette situation crée un cercle vicieux où les étudiants, pour éviter d’être accusés d’utiliser des IA, adoptent un style d’écriture qui ressemble de plus en plus à celui généré par des machines. Les vérificateurs de texte IA, en réponse, deviennent de plus en plus stricts, poussant les étudiants à se conformer encore davantage. Ce phénomène soulève des questions sur l’impact de la technologie sur l’éducation et sur la manière dont nous évaluons les compétences des étudiants.
Il faut dire que les outils de détection eux-mêmes présentent un risque de biais
Une étude réalisée en 2023 a révélé un taux de faux positifs de 61,3 % lors de l'évaluation des examens du Test of English as a Foreign Language (TOEFL) à l'aide de sept détecteurs d'intelligence artificielle différents. La société affirme qu'elle a entraîné son détecteur sur des textes rédigés par des apprenants d'anglais et par des anglophones de naissance.
Dans notre étude, nous avons évalué les performances de sept détecteurs GPT largement utilisés sur 91 essais TOEFL (Test of English as a Foreign Language) provenant d'un forum chinois et 88 essais d'élèves américains de quatrième (eight-grade) provenant de l'ensemble de données ASAP de la Fondation Hewlett. Alors que les détecteurs ont correctement classé les essais des étudiants américains, ils ont incorrectement étiqueté plus de la moitié des essais du TOEFL comme étant « générés par l'IA » (taux moyen de faux positifs : 61,3 %).
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Tous les détecteurs ont unanimement identifié 19,8 % des essais du TOEFL écrits par des humains comme étant rédigés par des IA, et au moins un détecteur a signalé 97,8 % des essais du TOEFL comme étant générés par des IA. En y regardant de plus près, les essais TOEFL identifiés à l'unanimité présentaient une perplexité de texte significativement plus faible. La perplexité du texte est une mesure de la « surprise » ou de la « confusion » d'un modèle de langage génératif lorsqu'il tente de deviner le mot suivant dans une phrase. Si un modèle de langage génératif peut prédire facilement le mot suivant, la perplexité du texte est faible. En revanche, si le mot suivant est difficile à prédire, la perplexité du texte est élevée. La plupart des détecteurs GPT utilisent la perplexité du texte pour détecter les textes générés par l'IA, ce qui risque de pénaliser par inadvertance les auteurs non natifs qui utilisent une gamme plus limitée d'expressions linguistiques.
Vers une solution
Pour résoudre ce problème, il est essentiel de repenser notre approche de l’évaluation des travaux écrits. Plutôt que de se fier uniquement aux vérificateurs de texte IA, les enseignants pourraient adopter une approche plus holistique, en tenant compte du processus de rédaction et en encourageant les étudiants à développer leur propre style. De plus, il est crucial de sensibiliser les étudiants aux limites des outils d’IA et de les encourager à utiliser ces technologies de manière éthique et responsable.
En fin de compte, l’objectif devrait être de préserver la créativité et l’authenticité des étudiants tout en garantissant l’intégrité académique. Cela nécessite une collaboration entre les éducateurs, les développeurs de technologies et les étudiants pour créer un environnement d’apprentissage équilibré et équitable.
Sources : SB-942 California AI Transparency Act, Grammarly
Et vous ?
Pensez-vous que les vérificateurs de texte IA sont une solution efficace pour détecter la tricherie ? Pourquoi ou pourquoi pas ?
Comment les enseignants peuvent-ils encourager la créativité des étudiants tout en maintenant l’intégrité académique ?
Avez-vous déjà ressenti la pression de modifier votre style d’écriture pour éviter d’être accusé d’utiliser des outils d’IA ?
Quels sont les avantages et les inconvénients de l’utilisation des vérificateurs de texte IA dans l’éducation ?
Comment les institutions éducatives peuvent-elles équilibrer l’utilisation de la technologie et la préservation de l’authenticité des travaux des étudiants ?
Quelles alternatives aux vérificateurs de texte IA pourraient être mises en place pour évaluer les travaux écrits des étudiants ?
Pensez-vous que l’utilisation croissante des outils d’IA dans l’éducation pourrait changer la manière dont nous percevons la créativité et l’originalité ?