ChatGPT a réussi des examens dans une faculté de droit américaine après avoir rédigé des essais sur des sujets allant du droit constitutionnel à la fiscalité et aux délits. Sur plus de 95 questions à choix multiples et 12 questions à développement, ChatGPT a obtenu une note de C+, faible mais suffisante pour réussir l'examen. Après avoir donné des détails sur ces résultats, les professeurs ont discuté de leurs implications pour la formation juridique et la profession d'avocat. Ils ont entre autres prévenu que cela pourrait conduire à une fraude généralisée et même signaler la fin des méthodes d'enseignement traditionnelles en classe. Ils ont aussi fourni des exemples d'invites et des conseils sur la façon dont ChatGPT peut aider à la rédaction juridique.ChatGPT ne peut pas encore surpasser la plupart des étudiants en droit aux examens, selon de nouvelles recherches, mais il peut obtenir une note de passage. Un quatuor de professeurs de droit de l'Université du Minnesota a utilisé le populaire chatbot d'intelligence artificielle pour générer des réponses aux examens de quatre cours le semestre dernier, puis les a notés à l'aveugle aux côtés des tests des étudiants réels.
Jonathan Choi, professeur à la faculté de droit de l'Université du Minnesota, a soumis à ChatGPT au même test auquel les étudiants étaient confrontés, composé de 95 questions à choix multiples et de 12 questions à développement. Dans un livre blanc intitulé « ChatGPT va à la faculté de droit » publié lundi, lui et ses coauteurs ont rapporté que le bot avait obtenu un C+ dans l'ensemble, en dessous de la moyenne B+ des humains.
« Seul, ChatGPT serait un étudiant en droit plutôt médiocre », a déclaré l'auteur principal de l'étude, Jonathan Choi, qui a collaboré avec les professeurs Kristin Hickman, Amy Monahan et Daniel Schwarcz. « Le plus grand potentiel pour la profession ici est qu'un avocat puisse utiliser ChatGPT pour produire une première ébauche et simplement rendre sa pratique beaucoup plus efficace », a-t-il déclaré.
Choi a déclaré que lui et de nombreux collègues avaient désormais interdit l'utilisation d'Internet pendant les examens en classe pour éliminer la possibilité de tricher avec ChatGPT, bien que les futurs examens puissent tester leur capacité à tirer efficacement parti des programmes d'intelligence artificielle.
La performance de ChatGPT dans le détail
Voici ce que les professeurs ont noté :
Bien qu'il ait obtenu des performances suffisantes pour obtenir théoriquement un diplôme d'avocat, ChatGPT a généralement obtenu un score au niveau ou près du bas de chaque classe. ChatGPT a reçu un B en droit constitutionnel (36e sur 40 étudiants), un B- en avantages sociaux (18e sur 19 étudiants), un C- en fiscalité (66e sur 67 étudiants) et un C- en responsabilité civile (75e sur 75 étudiants).
En général, ChatGPT a obtenu de meilleurs résultats sur les composants de rédaction des examens que sur le choix multiple.
En ce qui concerne les essais, les performances de ChatGPT étaient très inégales. Dans certains cas, elle correspondait à, ou même dépassait, la performance moyenne de vrais étudiants. D'un autre côté, lorsque les questions à développement de ChatGPT étaient incorrectes, elles étaient dramatiquement incorrectes, obtenant souvent les pires scores de la classe. Il n'est peut-être pas surprenant que ce résultat soit particulièrement probable lorsque les questions à développement obligeaient les étudiants à évaluer ou à s'appuyer sur des cas, des théories ou des doctrines spécifiques abordés en classe.
En ce qui concerne les questions à choix multiples, ChatGPT a généralement obtenu des résultats inférieurs à ceux des essais, mais toujours statistiquement nettement meilleurs que le hasard. Il a répondu correctement à 21 questions à choix multiples sur 25 à l'examen de droit constitutionnel (p = 0,000)* et à 6 sur 10 à l'examen de responsabilité délictuelle (p = 0,020). Cependant, ChatGPT a obtenu des résultats bien pires sur les questions impliquant des mathématiques, qui apparaissaient exclusivement à l'examen sur la fiscalité et ont fait baisser son score. Lors de l'examen sur la fiscalité, ChatGPT n'a répondu correctement qu'à 8 des 29 questions mathématiques, essentiellement pas mieux que le hasard (p = 0,443). Il a répondu correctement à 16 des 31 questions non mathématiques (y compris les questions impliquant des nombres mais sans raisonnement mathématique), nettement mieux que le hasard (p = 0,001). ChatGPT avait également tendance à mieux performer sur les questions à choix multiples qui impliquaient des règles juridiques relativement uniformes dans toutes les juridictions, plutôt que des doctrines qui pouvaient varier considérablement d'une juridiction ou d'un tribunal à l'autre.
* : Toutes les valeurs de p ont été générées à l'aide du bootstrap. L'examen de droit constitutionnel avait 5 choix par question, tandis que les examens de fiscalité et de responsabilité civile avaient 4 choix par question.
Lors de la rédaction d'essais, ChatGPT a montré une solide compréhension des règles juridiques de base et avait une organisation et une composition toujours solides. Cependant, il a eu du mal à identifier les problèmes pertinents et n'a souvent appliqué que superficiellement les règles aux faits par rapport aux vrais étudiants en droit.
ChatGPT a fait un bon travail en résumant avec précision les doctrines juridiques appropriées et en citant correctement les faits et les conclusions de cas spécifiques. Dans de nombreux cas, il a pu se concentrer sur les doctrines juridiques pertinentes sans incitation spécifique par la question. Par exemple, en réponse à un...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
