Revenons un peu en arrière. Au début de l'année 2023, ChatGPT-3.5 s'est essayé à l'Abitur bavarois, un examen difficile de l'enseignement secondaire allemand, et n'a pas tout à fait réussi. Six mois plus tard, son successeur, ChatGPT-4, passe non seulement le test, mais obtient des résultats impressionnants. Ce bond en avant a éveillé la curiosité de l'université de Passau et a donné lieu à une étude novatrice.
L'étude publiée dans "Scientific Reports", une revue de Nature, met en lumière l'évolution des compétences de l'IA en matière de rédaction d'essais. Face à des textes rédigés par des étudiants, les prouesses de l'IA en matière de maîtrise de la langue sont indéniables. Les chercheurs, dirigés par le professeur Steffen Herbold, ont été surpris par la grande différence de qualité. Il s'agit d'un appel au système éducatif pour qu'il adopte ces nouveaux outils.
"Les modèles d'IA génèrent des essais argumentatifs de bien meilleure qualité que les utilisateurs d'un forum en ligne de rédaction d'essais fréquenté par des lycéens allemands, et ce pour tous les critères de notre grille d'évaluation", peut-on lire dans l'étude.
Mais il ne s'agit pas seulement d'opposer l'IA à l'homme. L'étude, fruit d'une collaboration entre des informaticiens, des linguistes et des experts en éducation, vise à préparer les éducateurs à un avenir où l'IA sera omniprésente. Sous la direction d'Ute Heuer, didacticienne en informatique, l'équipe a même organisé un cours de formation pour les enseignants, mêlant technologie et pédagogie.
Dans le cadre d'une expérience pratique, des enseignants, ignorant les origines de l'essai, ont évalué des textes sur la base de critères éducatifs établis. Le résultat ? L'IA, en particulier ChatGPT-4, a obtenu des résultats exceptionnels en matière de maîtrise de la langue, dépassant largement les scores des élèves.
"Les styles d'écriture des humains et des modèles d'IA générative diffèrent considérablement : par exemple, les modèles GPT utilisent davantage de nominalisations et ont une plus grande complexité de phrase (signalant un langage plus complexe, plus "scientifique", tandis que les étudiants utilisent davantage de constructions modales et épistémiques (qui tendent à transmettre l'attitude du locuteur)", explique l'étude.
Il ne s'agit pas de minimiser les capacités des étudiants, mais plutôt de mettre en évidence les remarquables compétences linguistiques de l'IA. Annette Hautli-Janisz, jeune professeur à l'université de Passau, considère qu'il s'agit là d'un aperçu essentiel de l'évolution des capacités linguistiques de l'IA. L'étude ne se contente pas de mettre en évidence les progrès de l'IA, elle pose également des questions intrigantes sur son impact sur le langage humain.
"Les essais générés par l'IA sont très structurés, ce qui se reflète par exemple dans les débuts identiques des sections finales de tous les essais de ChatGPT ("En conclusion, [...]". Les phrases initiales de chaque essai sont également très similaires et commencent par une déclaration générale utilisant les principaux concepts des sujets de l'essai", explique l'étude, qui ajoute : "Bien que cela corresponde à la structure générale recherchée pour les essais argumentatifs, il est frappant de voir que les modèles ChatGPT sont si rigides dans la réalisation de cette structure, alors que les essais écrits par des humains sont plus souples dans la représentation de la ligne directrice sur la surface linguistique".
À l'aube d'un avenir où les textes générés par l'IA seront de plus en plus répandus, nous devons nous interroger : Comment cela influencera-t-il notre langage et notre communication ? L'étude de l'université de Passau est plus qu'une comparaison, c'est un regard sur la transformation rapide du paysage de la langue, de la technologie et de l'éducation.
Les conclusions de l'étude de l'université de Passau sont présentées ci-dessous :
Résumé
ChatGPT et les modèles d'IA générative similaires ont attiré des centaines de millions d'utilisateurs et sont devenus partie intégrante du discours public. Nombreux sont ceux qui pensent que ces modèles vont perturber la société et entraîner des changements significatifs dans le système éducatif et la production d'informations. Jusqu'à présent, cette conviction repose soit sur des témoignages familiers, soit sur des références fournies par les propriétaires des modèles, qui manquent tous deux de rigueur scientifique. Nous évaluons systématiquement la qualité du contenu généré par l'IA au moyen d'une étude à grande échelle comparant des essais argumentatifs d'étudiants rédigés par des humains à ceux générés par ChatGPT. Nous utilisons des essais qui ont été évalués par un grand nombre d'experts humains (enseignants). Nous complétons l'analyse en tenant compte d'un ensemble de caractéristiques linguistiques des essais générés. Nos résultats démontrent que ChatGPT génère des rédactions dont la qualité est jugée supérieure à celle des rédactions rédigées par des humains. Le style d'écriture des modèles d'IA présente des caractéristiques linguistiques différentes de celles des essais rédigés par des humains. La technologie étant facilement accessible, nous pensons que les éducateurs doivent agir immédiatement. Nous devons réinventer les devoirs et développer des concepts d'enseignement qui utilisent ces modèles d'IA de la même manière que les mathématiques utilisent la calculatrice : enseigner d'abord les concepts généraux, puis utiliser les outils d'IA pour libérer du temps pour d'autres objectifs d'apprentissage.
Conclusion
Nos résultats indiquent clairement que la crainte de nombreux professionnels de l'enseignement est justifiée : la manière dont les élèves font leurs devoirs et dont les enseignants les évaluent doit changer dans un monde de modèles d'IA génératifs. Pour les locuteurs non natifs, nos résultats montrent que lorsque les étudiants veulent maximiser leurs notes de dissertation, ils peuvent facilement le faire en s'appuyant sur les résultats de modèles d'IA comme ChatGPT. Les très bonnes performances des modèles d'IA indiquent que cela pourrait également être le cas pour les locuteurs natifs, bien que la différence de compétences linguistiques soit probablement plus faible. Cependant, ce n'est pas et ne peut pas être l'objectif de l'éducation. Par conséquent, les éducateurs doivent modifier leur approche des devoirs. Au lieu de se contenter d'assigner et de noter des dissertations, nous devons réfléchir davantage aux résultats des outils d'IA en ce qui concerne leur raisonnement et leur justesse. Les modèles d'IA doivent être considérés comme une partie intégrante de l'éducation, mais qui nécessite une réflexion approfondie et une formation à la pensée critique.
En outre, les enseignants doivent adapter leurs stratégies d'enseignement des compétences rédactionnelles : comme pour l'utilisation des calculatrices, il est nécessaire de mener une réflexion critique avec les étudiants sur le moment et la manière d'utiliser ces outils. Par exemple, les constructivistes affirment que l'apprentissage est renforcé par la conception et la création actives d'artefacts uniques par les élèves eux-mêmes. Dans le cas présent, cela signifie qu'à long terme, les objectifs pédagogiques devront peut-être être ajustés. C'est comme si l'on enseignait de bonnes notions d'arithmétique aux jeunes élèves avant de les autoriser et de les encourager à utiliser librement des calculatrices à un stade ultérieur de leur scolarité. De même, une fois qu'un bon niveau d'alphabétisation a été atteint, l'intégration poussée de modèles d'IA dans les plans de cours peut ne plus aller à l'encontre d'objectifs d'apprentissage raisonnables.
En ce qui concerne la qualité et la structure des essais générés par l'IA, cet article apporte une contribution importante en offrant un compte rendu indépendant, à grande échelle et statistiquement fiable de la qualité des essais, en comparant des textes écrits par des humains et des textes générés par l'IA. En comparant différentes versions de ChatGPT, nous offrons également un aperçu de l'évolution de ces modèles au fil du temps en termes de propriétés linguistiques et de qualité. Nos résultats montrent que si la langue générée par ChatGPT est considérée comme très bonne par les humains, il existe également des différences structurelles notables, par exemple dans l'utilisation des marqueurs de discours. Cela montre qu'il est nécessaire d'examiner en profondeur non seulement les capacités des modèles d'IA générative (c'est-à-dire les tâches pour lesquelles ils peuvent être utilisés), mais aussi le langage qu'ils génèrent. Par exemple, si nous lisons de nombreux textes générés par l'IA qui utilisent moins de marqueurs de discours, la question se pose de savoir si et comment cela affecterait notre utilisation humaine des marqueurs de discours. Comprendre comment les textes générés par l'IA diffèrent des textes écrits par des humains nous permet de rechercher ces différences, de raisonner sur leur impact potentiel, et d'étudier et éventuellement d'atténuer cet impact.
ChatGPT et les modèles d'IA générative similaires ont attiré des centaines de millions d'utilisateurs et sont devenus partie intégrante du discours public. Nombreux sont ceux qui pensent que ces modèles vont perturber la société et entraîner des changements significatifs dans le système éducatif et la production d'informations. Jusqu'à présent, cette conviction repose soit sur des témoignages familiers, soit sur des références fournies par les propriétaires des modèles, qui manquent tous deux de rigueur scientifique. Nous évaluons systématiquement la qualité du contenu généré par l'IA au moyen d'une étude à grande échelle comparant des essais argumentatifs d'étudiants rédigés par des humains à ceux générés par ChatGPT. Nous utilisons des essais qui ont été évalués par un grand nombre d'experts humains (enseignants). Nous complétons l'analyse en tenant compte d'un ensemble de caractéristiques linguistiques des essais générés. Nos résultats démontrent que ChatGPT génère des rédactions dont la qualité est jugée supérieure à celle des rédactions rédigées par des humains. Le style d'écriture des modèles d'IA présente des caractéristiques linguistiques différentes de celles des essais rédigés par des humains. La technologie étant facilement accessible, nous pensons que les éducateurs doivent agir immédiatement. Nous devons réinventer les devoirs et développer des concepts d'enseignement qui utilisent ces modèles d'IA de la même manière que les mathématiques utilisent la calculatrice : enseigner d'abord les concepts généraux, puis utiliser les outils d'IA pour libérer du temps pour d'autres objectifs d'apprentissage.
Conclusion
Nos résultats indiquent clairement que la crainte de nombreux professionnels de l'enseignement est justifiée : la manière dont les élèves font leurs devoirs et dont les enseignants les évaluent doit changer dans un monde de modèles d'IA génératifs. Pour les locuteurs non natifs, nos résultats montrent que lorsque les étudiants veulent maximiser leurs notes de dissertation, ils peuvent facilement le faire en s'appuyant sur les résultats de modèles d'IA comme ChatGPT. Les très bonnes performances des modèles d'IA indiquent que cela pourrait également être le cas pour les locuteurs natifs, bien que la différence de compétences linguistiques soit probablement plus faible. Cependant, ce n'est pas et ne peut pas être l'objectif de l'éducation. Par conséquent, les éducateurs doivent modifier leur approche des devoirs. Au lieu de se contenter d'assigner et de noter des dissertations, nous devons réfléchir davantage aux résultats des outils d'IA en ce qui concerne leur raisonnement et leur justesse. Les modèles d'IA doivent être considérés comme une partie intégrante de l'éducation, mais qui nécessite une réflexion approfondie et une formation à la pensée critique.
En outre, les enseignants doivent adapter leurs stratégies d'enseignement des compétences rédactionnelles : comme pour l'utilisation des calculatrices, il est nécessaire de mener une réflexion critique avec les étudiants sur le moment et la manière d'utiliser ces outils. Par exemple, les constructivistes affirment que l'apprentissage est renforcé par la conception et la création actives d'artefacts uniques par les élèves eux-mêmes. Dans le cas présent, cela signifie qu'à long terme, les objectifs pédagogiques devront peut-être être ajustés. C'est comme si l'on enseignait de bonnes notions d'arithmétique aux jeunes élèves avant de les autoriser et de les encourager à utiliser librement des calculatrices à un stade ultérieur de leur scolarité. De même, une fois qu'un bon niveau d'alphabétisation a été atteint, l'intégration poussée de modèles d'IA dans les plans de cours peut ne plus aller à l'encontre d'objectifs d'apprentissage raisonnables.
En ce qui concerne la qualité et la structure des essais générés par l'IA, cet article apporte une contribution importante en offrant un compte rendu indépendant, à grande échelle et statistiquement fiable de la qualité des essais, en comparant des textes écrits par des humains et des textes générés par l'IA. En comparant différentes versions de ChatGPT, nous offrons également un aperçu de l'évolution de ces modèles au fil du temps en termes de propriétés linguistiques et de qualité. Nos résultats montrent que si la langue générée par ChatGPT est considérée comme très bonne par les humains, il existe également des différences structurelles notables, par exemple dans l'utilisation des marqueurs de discours. Cela montre qu'il est nécessaire d'examiner en profondeur non seulement les capacités des modèles d'IA générative (c'est-à-dire les tâches pour lesquelles ils peuvent être utilisés), mais aussi le langage qu'ils génèrent. Par exemple, si nous lisons de nombreux textes générés par l'IA qui utilisent moins de marqueurs de discours, la question se pose de savoir si et comment cela affecterait notre utilisation humaine des marqueurs de discours. Comprendre comment les textes générés par l'IA diffèrent des textes écrits par des humains nous permet de rechercher ces différences, de raisonner sur leur impact potentiel, et d'étudier et éventuellement d'atténuer cet impact.
Et vous ?
Qu'en pensez-vous ?
Trouvez-vous que les conclusions de cette étude de l'université de Passau sont crédibles ou pertinentes ?
Comment envisagez-vous l'intégration du contenu généré par l'IA dans la manière dont nous transmettons les informations dans les années à venir ?
Voir aussi
ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile
Les étudiants utilisent l'IA pour rédiger leurs travaux, les dissertations rédigées par des outils de langage IA comme OpenAI's Playground sont difficiles à distinguer des textes faits par des humains
Pourquoi les universités devraient revenir aux examens oraux à l'ère de l'IA et de ChatGPT, un doyen d'université affirme que cela élimine systématiquement les risques de plagiat et de tricherie