
ChatGPT ne peut pas encore surpasser la plupart des étudiants en droit aux examens, selon de nouvelles recherches, mais il peut obtenir une note de passage. Un quatuor de professeurs de droit de l'Université du Minnesota a utilisé le populaire chatbot d'intelligence artificielle pour générer des réponses aux examens de quatre cours le semestre dernier, puis les a notés à l'aveugle aux côtés des tests des étudiants réels.
Jonathan Choi, professeur à la faculté de droit de l'Université du Minnesota, a soumis à ChatGPT au même test auquel les étudiants étaient confrontés, composé de 95 questions à choix multiples et de 12 questions à développement. Dans un livre blanc intitulé « ChatGPT va à la faculté de droit » publié lundi, lui et ses coauteurs ont rapporté que le bot avait obtenu un C+ dans l'ensemble, en dessous de la moyenne B+ des humains.
« Seul, ChatGPT serait un étudiant en droit plutôt médiocre », a déclaré l'auteur principal de l'étude, Jonathan Choi, qui a collaboré avec les professeurs Kristin Hickman, Amy Monahan et Daniel Schwarcz. « Le plus grand potentiel pour la profession ici est qu'un avocat puisse utiliser ChatGPT pour produire une première ébauche et simplement rendre sa pratique beaucoup plus efficace », a-t-il déclaré.
Choi a déclaré que lui et de nombreux collègues avaient désormais interdit l'utilisation d'Internet pendant les examens en classe pour éliminer la possibilité de tricher avec ChatGPT, bien que les futurs examens puissent tester leur capacité à tirer efficacement parti des programmes d'intelligence artificielle.
La performance de ChatGPT dans le détail
Voici ce que les professeurs ont noté :
Bien qu'il ait obtenu des performances suffisantes pour obtenir théoriquement un diplôme d'avocat, ChatGPT a généralement obtenu un score au niveau ou près du bas de chaque classe. ChatGPT a reçu un B en droit constitutionnel (36e sur 40 étudiants), un B- en avantages sociaux (18e sur 19 étudiants), un C- en fiscalité (66e sur 67 étudiants) et un C- en responsabilité civile (75e sur 75 étudiants).
En général, ChatGPT a obtenu de meilleurs résultats sur les composants de rédaction des examens que sur le choix multiple.
En ce qui concerne les essais, les performances de ChatGPT étaient très inégales. Dans certains cas, elle correspondait à, ou même dépassait, la performance moyenne de vrais étudiants. D'un autre côté, lorsque les questions à développement de ChatGPT étaient incorrectes, elles étaient dramatiquement incorrectes, obtenant souvent les pires scores de la classe. Il n'est peut-être pas surprenant que ce résultat soit particulièrement probable lorsque les questions à développement obligeaient les étudiants à évaluer ou à s'appuyer sur des cas, des théories ou des doctrines spécifiques abordés en classe.
En ce qui concerne les questions à choix multiples, ChatGPT a généralement obtenu des résultats inférieurs à ceux des essais, mais toujours statistiquement nettement meilleurs que le hasard. Il a répondu correctement à 21 questions à choix multiples sur 25 à l'examen de droit constitutionnel (p = 0,000)* et à 6 sur 10 à l'examen de responsabilité délictuelle (p = 0,020). Cependant, ChatGPT a obtenu des résultats bien pires sur les questions impliquant des mathématiques, qui apparaissaient exclusivement à l'examen sur la fiscalité et ont fait baisser son score. Lors de l'examen sur la fiscalité, ChatGPT n'a répondu correctement qu'à 8 des 29 questions mathématiques, essentiellement pas mieux que le hasard (p = 0,443). Il a répondu correctement à 16 des 31 questions non mathématiques (y compris les questions impliquant des nombres mais sans raisonnement mathématique), nettement mieux que le hasard (p = 0,001). ChatGPT avait également tendance à mieux performer sur les questions à choix multiples qui impliquaient des règles juridiques relativement uniformes dans toutes les juridictions, plutôt que des doctrines qui pouvaient varier considérablement d'une juridiction ou d'un tribunal à l'autre.
* : Toutes les valeurs de p ont été générées à l'aide du bootstrap. L'examen de droit constitutionnel avait 5 choix par question, tandis que les examens de fiscalité et de responsabilité civile avaient 4 choix par question.
Lors de la rédaction d'essais, ChatGPT a montré une solide compréhension des règles juridiques de base et avait une organisation et une composition toujours solides. Cependant, il a eu du mal à identifier les problèmes pertinents et n'a souvent appliqué que superficiellement les règles aux faits par rapport aux vrais étudiants en droit.
ChatGPT a fait un bon travail en résumant avec précision les doctrines juridiques appropriées et en citant correctement les faits et les conclusions de cas spécifiques. Dans de nombreux cas, il a pu se concentrer sur les doctrines juridiques pertinentes sans incitation spécifique par la question. Par exemple, en réponse à un essai sur le droit de la responsabilité délictuelle impliquant un propriétaire qui a érigé une décoration d'Halloween dangereuse qui a blessé une personne participant à l'évènement [des bonbons ou un sort ?], il a non seulement précisé les éléments familiers de la négligence (devoir, violation, causalité et dommages), mais aussi a correctement spécifié que le propriétaire - qu'il a identifié par son nom - « a l'obligation légale de maintenir sa propriété dans un état raisonnablement sûr pour ceux qui sont invités ou autorisés à se trouver sur la propriété ».
ChatGPT a tout aussi bien réussi à énoncer des règles juridiques largement pertinentes sur des sujets relativement techniques qui sont probablement moins bien attestés dans le corpus de formation (par exemple, les avantages sociaux), par opposition à des sujets relativement courants (par exemple, la responsabilité civile). Lors de l'examen des avantages sociaux des employés, ChatGPT a été en mesure de fournir une explication solide de la disposition de préemption notoirement difficile de l'ERISA, citant à la fois un langage législatif spécifique et des décisions pertinentes de la Cour suprême élucidant cette norme. ChatGPT a même dépassé la moyenne de la classe lorsqu'il a répondu à une question à réponse courte impliquant les règles hautement techniques des transactions interdites de l'ERISA.
ChatGPT est connu pour « halluciner » en fabriquant des faits, mais dans notre étude, il ne l'a généralement pas fait, peut-être parce que nos invites ont demandé à ChatGPT de ne pas fabriquer de cas et (lorsque la question de l'examen l'exige) que nous lui avons fourni un univers spécifique de cas avec lesquels travailler. ChatGPT était également bon pour maintenir le ton requis par l'essai. Par exemple, en réponse à une question à développement sur le droit constitutionnel demandant une réponse sous la forme d'une note à l'avocat évaluant les réclamations potentielles, la réponse du ChatGPT a conservé le ton et le format appropriés tout au long.
Les réponses à l'essai de ChatGPT étaient généralement claires et bien conçues, peut-être même de manière suspecte par rapport à de vrais étudiants écrivant un examen limité dans le temps. Stylistiquement, ChatGPT a produit du texte sans erreurs grammaticales ni fautes de frappe. Il a également bien structuré les phrases et les paragraphes, bien que de manière formelle, avec des phrases d'introduction et des conclusions. Peut-être parce que nous avons incité ChatGPT à rédiger des essais plus longs section par section, il avait une bonne organisation de haut niveau et était relativement clair sur la séparation des points pertinents dans son argumentation. Par exemple, sa réponse à une hypothèse de responsabilité du fait des produits a analysé séparément trois réclamations potentielles (conception défectueuse, avertissement défectueux et batterie), deux recours potentiels (dommages-intérêts compensatoires et punitifs) et la question ultime contenue dans l'invite de rédaction concernant la question de savoir si un le tribunal doit faire droit aux requêtes en rejet des défendeurs.
Faiblesses dans les rédactions d'essais
Cependant, les réponses dans les essais de ChatGPT contenaient également des problèmes et des erreurs constants qui, cumulativement, en faisaient un élève bien pire que la moyenne. ChatGPT avait souvent du mal à détecter les problèmes lorsqu'il recevait une invite ouverte, une compétence essentielle aux examens des facultés de droit. Par exemple, dans le problème de droit constitutionnel (un sujet dans lequel il a par ailleurs relativement bien performé), il n'a clairement identifié qu'un seul problème sur 5. De même, dans un essai sur le droit de la responsabilité délictuelle, ChatGPT n'a pas réussi à identifier les théories distinctes de la négligence les faits.
ChatGPT était également mauvais pour se concentrer sur ce qui comptait ; il produirait de bonnes réponses sur le sujet à une question, puis irait complètement hors sujet pour la question suivante, comme avec ses résultats très divergents sur les observateurs des problèmes des avantages sociaux des employés. Par exemple, dans une longue question à développement impliquant des recours disponibles en vertu de l'ERISA, ChatGPT n'a pas discuté de la question principale (si un recours souhaité était en...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.