L’utilisation de l’intelligence artificielle (IA) dans l’évaluation universitaire suscite à la fois enthousiasme et inquiétude. D’un côté, elle promet d’améliorer l’efficacité des évaluations, de réduire la charge de travail des enseignants et d’offrir des retours plus rapides aux étudiants. D’un autre côté, elle soulève des questions sur l’intégrité académique, la triche et la confiance dans le système d’évaluation.
L’expérience de l’Université de Reading
Une étude récente menée à l’Université de Reading a examiné l’efficacité de l’IA dans l’évaluation des examens universitaires. Les chercheurs ont soumis les réponses générées par ChatGPT pour plusieurs modules de psychologie de premier cycle, aux côtés du travail d’étudiants réels. Les résultats ont été surprenants : les réponses de l’IA sont passées inaperçues dans 94 % des cas et ont obtenu en moyenne des notes plus élevées que celles des étudiants réels.
Peter Scarfe, de l'université de Reading (Royaume-Uni), et ses collègues ont utilisé ChatGPT pour produire des réponses à 63 questions d'évaluation portant sur cinq modules de la licence de psychologie de l'université. Les étudiants ont passé ces examens chez eux, ce qui leur a permis de consulter des notes et des références, et ils auraient pu utiliser l'IA, mais cela n'était pas autorisé.
Les réponses générées par l'IA ont été soumises en même temps que les travaux de vrais étudiants et représentaient, en moyenne, 5 % de l'ensemble des copies corrigées par les universitaires. Les correcteurs n'étaient pas informés qu'ils vérifiaient le travail de 33 faux étudiants, dont les noms étaient eux-mêmes générés par ChatGPT.
Les évaluations comprenaient deux types de questions : des réponses courtes et des dissertations plus longues. Les instructions données à ChatGPT commençaient par les mots « Inclure des références à la littérature académique mais pas une section de référence séparée », puis copiaient la question de l'examen.
Sur l'ensemble des modules, seuls 6 % des soumissions d'IA ont été signalées comme n'étant pas le travail de l'étudiant - même si, dans certains modules, aucun travail généré par l'IA n'a été signalé comme suspect. « En moyenne, les réponses de l'IA ont obtenu de meilleures notes que les travaux de nos vrais étudiants », précise Scarfe, bien qu'il y ait une certaine variabilité d'un module à l'autre.
« L'IA actuelle a tendance à éprouver des difficultés avec le raisonnement abstrait et l'intégration de l'information », ajoute-t-il. Mais sur l'ensemble des 63 travaux d'IA, il y avait 83,4 % de chances que le travail de l'IA soit supérieur à celui des étudiants.
Les chercheurs affirment que leurs travaux constituent l'étude la plus vaste et la plus solide de ce type à ce jour. Bien que l'étude n'ait porté que sur les travaux réalisés dans le cadre du diplôme de psychologie de l'université de Reading, Scarfe estime qu'il s'agit d'une préoccupation pour l'ensemble du secteur universitaire. « Je n'ai aucune raison de penser que d'autres disciplines ne seraient pas confrontées au même type de problème », déclare-t-il.
« Les résultats montrent exactement ce que je m'attendais à voir », a déclaré Thomas Lancaster, de l'Imperial College de Londres. « Nous savons que l'IA générative peut produire des réponses raisonnables à des questions textuelles simples et limitées ». Il souligne que les évaluations non supervisées comprenant des réponses courtes ont toujours été susceptibles de donner lieu à des tricheries.
La charge de travail des universitaires chargés de corriger les travaux ne les aide pas non plus à déceler les erreurs de l'IA. « Il est très peu probable que les correcteurs de questions à réponses courtes, pressés par le temps, soulèvent des cas de mauvaise conduite de l'IA sur un coup de tête », estime Lancaster. « Je suis sûr que ce n'est pas la seule institution où cela se produit ».
Selon Scarfe, il sera pratiquement impossible de s'attaquer au problème à la source. Le secteur doit donc plutôt reconsidérer ce qu'il évalue. « Je pense qu'il faudra que l'ensemble du secteur reconnaisse le fait que nous allons devoir intégrer l'IA dans les évaluations que nous faisons subir à nos étudiants », déclare-t-il.
Le pourcentage d'étudiants utilisant ChatGPT pour rédiger leurs devoirs et d'enseignants pour les corriger a augmenté selon un rapport
Lorsque Diane Gayeski, professeur de communication stratégique à l'Ithaca College, reçoit une dissertation de l'un de ses étudiants, elle la soumet en partie à ChatGPT, en demandant à l'outil d'IA de la critiquer et de lui suggérer des moyens de l'améliorer. « La meilleure façon de considérer l'IA pour la notation est de la considérer comme un assistant d'enseignement ou un assistant de recherche qui pourrait faire un premier passage... et elle fait un très bon travail à cet égard », a-t-elle déclaré.
Elle montre à ses élèves les commentaires de ChatGPT et la façon dont l'outil a réécrit leur essai. « Je leur fais part de ce que je pense de leur introduction et nous en discutons », assure-t-elle. Gayeski demande à sa classe de 15 élèves de faire la même chose : passer leur projet par ChatGPT pour voir où ils peuvent apporter des améliorations.
L'émergence de l'IA est en train de remodeler l'éducation, présentant de réels avantages, tels que l'automatisation de certaines tâches afin de libérer du temps pour un enseignement plus personnalisé, mais aussi des risques importants, qu'il s'agisse de problèmes liés à la précision, au plagiat ou au maintien de l'intégrité.
Les enseignants comme les élèves utilisent les nouvelles technologies. Un rapport de la société de conseil en stratégie Tyton Partners, parrainé par la plateforme de détection du plagiat Turnitin, révèle que la moitié des étudiants se sont servi des outils d'IA à l'automne 2023. Parallèlement, bien que moins de membres du corps enseignant utilisent l'IA, le pourcentage a augmenté pour atteindre 22 % des membres du corps enseignant à l'automne 2023, contre 9 % au printemps 2023.
Les enseignants se tournent vers des outils et des plateformes d'IA - tels que ChatGPT, Writable, Grammarly et EssayGrader - pour les aider à corriger les copies, à rédiger des commentaires, à élaborer des plans de cours et à créer des devoirs. Ils utilisent également ces outils en plein essor pour créer des quiz, des sondages, des vidéos et des éléments interactifs afin d'améliorer les attentes en classe. Les étudiants, quant à eux, s'appuient sur des outils tels que ChatGPT et Microsoft CoPilot - qui est intégré dans Word, PowerPoint et d'autres produits.
Mais si certaines écoles ont élaboré des politiques sur la manière dont les élèves peuvent ou ne peuvent pas utiliser l'IA pour leurs travaux scolaires, beaucoup n'ont pas de lignes directrices à l'intention des enseignants. La pratique consistant à utiliser l'IA pour rédiger des commentaires ou noter des devoirs soulève également des questions d'ordre éthique. Les parents et les étudiants qui dépensent déjà des centaines de milliers de dollars en frais de scolarité peuvent se demander si une boucle de rétroaction sans fin de contenus générés et notés par l'IA à l'université vaut la peine d'y consacrer du temps et de l'argent.
« Si les enseignants l'utilisent uniquement pour noter et que les étudiants l'utilisent uniquement pour produire un produit final, cela ne fonctionnera pas », a déclaré Gayeski.
Source : Un test réel d'infiltration d'intelligence artificielle dans un système d'examens universitaires : une étude de cas du "test de Turing"
Et vous ?
Êtes-vous pour ou contre l'utilisation de l'IA pour faire ses devoirs ? Pour ou contre l'utilisation de l'IA pour les corriger ?
L’éthique de l’utilisation de l’IA dans l’éducation : Comment pouvons-nous équilibrer l’utilisation de l’IA pour améliorer l’efficacité des évaluations tout en évitant la triche et en préservant l’intégrité académique ?
La responsabilité des enseignants et des institutions : Dans quelle mesure les enseignants devraient-ils être responsables de détecter la fraude de l’IA ? Quelles mesures peuvent être mises en place pour les soutenir dans cette tâche ?
Transparence et confiance : Comment pouvons-nous garantir que les étudiants ont confiance dans le système d’évaluation, même lorsque l’IA est impliquée ? Quelles informations devraient être divulguées aux étudiants concernant l’utilisation de l’IA ?
Évolution des compétences d’évaluation : Les enseignants doivent-ils acquérir de nouvelles compétences pour évaluer le travail généré par l’IA ? Comment pouvons-nous les former efficacement ?
Limites de l’IA : Quelles sont les limites actuelles de l’IA en matière d’évaluation ? Comment pouvons-nous les surmonter pour garantir des évaluations justes et précises ?