ChatGPT a réussi des examens dans une faculté de droit américaine après avoir rédigé des essais sur des sujets allant du droit constitutionnel à la fiscalité et aux délits. Sur plus de 95 questions à choix multiples et 12 questions à développement, ChatGPT a obtenu une note de C+, faible mais suffisante pour réussir l'examen. Après avoir donné des détails sur ces résultats, les professeurs ont discuté de leurs implications pour la formation juridique et la profession d'avocat. Ils ont entre autres prévenu que cela pourrait conduire à une fraude généralisée et même signaler la fin des méthodes d'enseignement traditionnelles en classe. Ils ont aussi fourni des exemples d'invites et des conseils sur la façon dont ChatGPT peut aider à la rédaction juridique.
ChatGPT ne peut pas encore surpasser la plupart des étudiants en droit aux examens, selon de nouvelles recherches, mais il peut obtenir une note de passage. Un quatuor de professeurs de droit de l'Université du Minnesota a utilisé le populaire chatbot d'intelligence artificielle pour générer des réponses aux examens de quatre cours le semestre dernier, puis les a notés à l'aveugle aux côtés des tests des étudiants réels.
Jonathan Choi, professeur à la faculté de droit de l'Université du Minnesota, a soumis à ChatGPT au même test auquel les étudiants étaient confrontés, composé de 95 questions à choix multiples et de 12 questions à développement. Dans un livre blanc intitulé « ChatGPT va à la faculté de droit » publié lundi, lui et ses coauteurs ont rapporté que le bot avait obtenu un C+ dans l'ensemble, en dessous de la moyenne B+ des humains.
« Seul, ChatGPT serait un étudiant en droit plutôt médiocre », a déclaré l'auteur principal de l'étude, Jonathan Choi, qui a collaboré avec les professeurs Kristin Hickman, Amy Monahan et Daniel Schwarcz. « Le plus grand potentiel pour la profession ici est qu'un avocat puisse utiliser ChatGPT pour produire une première ébauche et simplement rendre sa pratique beaucoup plus efficace », a-t-il déclaré.
Choi a déclaré que lui et de nombreux collègues avaient désormais interdit l'utilisation d'Internet pendant les examens en classe pour éliminer la possibilité de tricher avec ChatGPT, bien que les futurs examens puissent tester leur capacité à tirer efficacement parti des programmes d'intelligence artificielle.
La performance de ChatGPT dans le détail
Voici ce que les professeurs ont noté :
Bien qu'il ait obtenu des performances suffisantes pour obtenir théoriquement un diplôme d'avocat, ChatGPT a généralement obtenu un score au niveau ou près du bas de chaque classe. ChatGPT a reçu un B en droit constitutionnel (36e sur 40 étudiants), un B- en avantages sociaux (18e sur 19 étudiants), un C- en fiscalité (66e sur 67 étudiants) et un C- en responsabilité civile (75e sur 75 étudiants).
En général, ChatGPT a obtenu de meilleurs résultats sur les composants de rédaction des examens que sur le choix multiple.
En ce qui concerne les essais, les performances de ChatGPT étaient très inégales. Dans certains cas, elle correspondait à, ou même dépassait, la performance moyenne de vrais étudiants. D'un autre côté, lorsque les questions à développement de ChatGPT étaient incorrectes, elles étaient dramatiquement incorrectes, obtenant souvent les pires scores de la classe. Il n'est peut-être pas surprenant que ce résultat soit particulièrement probable lorsque les questions à développement obligeaient les étudiants à évaluer ou à s'appuyer sur des cas, des théories ou des doctrines spécifiques abordés en classe.
En ce qui concerne les questions à choix multiples, ChatGPT a généralement obtenu des résultats inférieurs à ceux des essais, mais toujours statistiquement nettement meilleurs que le hasard. Il a répondu correctement à 21 questions à choix multiples sur 25 à l'examen de droit constitutionnel (p = 0,000)* et à 6 sur 10 à l'examen de responsabilité délictuelle (p = 0,020). Cependant, ChatGPT a obtenu des résultats bien pires sur les questions impliquant des mathématiques, qui apparaissaient exclusivement à l'examen sur la fiscalité et ont fait baisser son score. Lors de l'examen sur la fiscalité, ChatGPT n'a répondu correctement qu'à 8 des 29 questions mathématiques, essentiellement pas mieux que le hasard (p = 0,443). Il a répondu correctement à 16 des 31 questions non mathématiques (y compris les questions impliquant des nombres mais sans raisonnement mathématique), nettement mieux que le hasard (p = 0,001). ChatGPT avait également tendance à mieux performer sur les questions à choix multiples qui impliquaient des règles juridiques relativement uniformes dans toutes les juridictions, plutôt que des doctrines qui pouvaient varier considérablement d'une juridiction ou d'un tribunal à l'autre.
* : Toutes les valeurs de p ont été générées à l'aide du bootstrap. L'examen de droit constitutionnel avait 5 choix par question, tandis que les examens de fiscalité et de responsabilité civile avaient 4 choix par question.
Lors de la rédaction d'essais, ChatGPT a montré une solide compréhension des règles juridiques de base et avait une organisation et une composition toujours solides. Cependant, il a eu du mal à identifier les problèmes pertinents et n'a souvent appliqué que superficiellement les règles aux faits par rapport aux vrais étudiants en droit.
ChatGPT a fait un bon travail en résumant avec précision les doctrines juridiques appropriées et en citant correctement les faits et les conclusions de cas spécifiques. Dans de nombreux cas, il a pu se concentrer sur les doctrines juridiques pertinentes sans incitation spécifique par la question. Par exemple, en réponse à un essai sur le droit de la responsabilité délictuelle impliquant un propriétaire qui a érigé une décoration d'Halloween dangereuse qui a blessé une personne participant à l'évènement [des bonbons ou un sort ?], il a non seulement précisé les éléments familiers de la négligence (devoir, violation, causalité et dommages), mais aussi a correctement spécifié que le propriétaire - qu'il a identifié par son nom - « a l'obligation légale de maintenir sa propriété dans un état raisonnablement sûr pour ceux qui sont invités ou autorisés à se trouver sur la propriété ».
ChatGPT a tout aussi bien réussi à énoncer des règles juridiques largement pertinentes sur des sujets relativement techniques qui sont probablement moins bien attestés dans le corpus de formation (par exemple, les avantages sociaux), par opposition à des sujets relativement courants (par exemple, la responsabilité civile). Lors de l'examen des avantages sociaux des employés, ChatGPT a été en mesure de fournir une explication solide de la disposition de préemption notoirement difficile de l'ERISA, citant à la fois un langage législatif spécifique et des décisions pertinentes de la Cour suprême élucidant cette norme. ChatGPT a même dépassé la moyenne de la classe lorsqu'il a répondu à une question à réponse courte impliquant les règles hautement techniques des transactions interdites de l'ERISA.
ChatGPT est connu pour « halluciner » en fabriquant des faits, mais dans notre étude, il ne l'a généralement pas fait, peut-être parce que nos invites ont demandé à ChatGPT de ne pas fabriquer de cas et (lorsque la question de l'examen l'exige) que nous lui avons fourni un univers spécifique de cas avec lesquels travailler. ChatGPT était également bon pour maintenir le ton requis par l'essai. Par exemple, en réponse à une question à développement sur le droit constitutionnel demandant une réponse sous la forme d'une note à l'avocat évaluant les réclamations potentielles, la réponse du ChatGPT a conservé le ton et le format appropriés tout au long.
Les réponses à l'essai de ChatGPT étaient généralement claires et bien conçues, peut-être même de manière suspecte par rapport à de vrais étudiants écrivant un examen limité dans le temps. Stylistiquement, ChatGPT a produit du texte sans erreurs grammaticales ni fautes de frappe. Il a également bien structuré les phrases et les paragraphes, bien que de manière formelle, avec des phrases d'introduction et des conclusions. Peut-être parce que nous avons incité ChatGPT à rédiger des essais plus longs section par section, il avait une bonne organisation de haut niveau et était relativement clair sur la séparation des points pertinents dans son argumentation. Par exemple, sa réponse à une hypothèse de responsabilité du fait des produits a analysé séparément trois réclamations potentielles (conception défectueuse, avertissement défectueux et batterie), deux recours potentiels (dommages-intérêts compensatoires et punitifs) et la question ultime contenue dans l'invite de rédaction concernant la question de savoir si un le tribunal doit faire droit aux requêtes en rejet des défendeurs.
Faiblesses dans les rédactions d'essais
Cependant, les réponses dans les essais de ChatGPT contenaient également des problèmes et des erreurs constants qui, cumulativement, en faisaient un élève bien pire que la moyenne. ChatGPT avait souvent du mal à détecter les problèmes lorsqu'il recevait une invite ouverte, une compétence essentielle aux examens des facultés de droit. Par exemple, dans le problème de droit constitutionnel (un sujet dans lequel il a par ailleurs relativement bien performé), il n'a clairement identifié qu'un seul problème sur 5. De même, dans un essai sur le droit de la responsabilité délictuelle, ChatGPT n'a pas réussi à identifier les théories distinctes de la négligence les faits.
ChatGPT était également mauvais pour se concentrer sur ce qui comptait ; il produirait de bonnes réponses sur le sujet à une question, puis irait complètement hors sujet pour la question suivante, comme avec ses résultats très divergents sur les observateurs des problèmes des avantages sociaux des employés. Par exemple, dans une longue question à développement impliquant des recours disponibles en vertu de l'ERISA, ChatGPT n'a pas discuté de la question principale (si un recours souhaité était en fait disponible en vertu de l'ERISA) et a plutôt passé du temps à discuter des causes d'action ERISA qui n'étaient pas pertinentes pour les faits, ainsi qu'une cause d'action en droit de l'État qui était bien en dehors du champ d'application d'un cours sur les avantages sociaux des employés.
Et bien que ChatGPT ait bien réussi certaines réponses techniques courtes à l'examen des avantages sociaux des employés, il a également manqué des problèmes apparemment faciles. Dans une question à réponse courte impliquant le droit de continuer à être couvert par un régime de santé de l'employeur, ChatGPT a manqué un problème relativement facile à repérer - que l'employeur en question n'était pas soumis aux exigences de couverture de continuation de l'ERISA parce qu'il était en dessous du seuil de taille pertinent. En conséquence, les performances de ChatGPT avaient tendance à être très inégales, obtenant un score proche ou même supérieur à la moyenne sur certaines questions, et proche de zéro sur d'autres questions.
L'un des plus gros problèmes avec les essais de ChatGPT était qu'ils n'entraient pas suffisamment dans les détails lors de l'application des règles juridiques aux faits contenus dans les hypothèses d'examen. Dans de nombreux cas (mais pas toujours), ChatGPT a énoncé avec précision la règle juridique pertinente et (le cas échéant) a cité le cas correct, mais n'a pas expliqué comment le cas s'appliquait aux faits hypothétiques de l'examen. C'était un problème particulier sur les délits et le droit constitutionnel, et l'une des raisons de la mauvaise performance de ChatGPT à ces examens.
Par exemple, dans Torts, ChatGPT a correctement écrit que la responsabilité dépendrait de la question de savoir si les actions d'un défendeur étaient la cause d'une blessure, mais n'a pas évalué si les faits de l'examen hypothétique suggéraient l'existence d'une telle causalité (factuelle ou immédiate). En droit constitutionnel, bien que ChatGPT ait correctement identifié un problème de clause de nomination et cité certains des bons cas, ChatGPT n'a pas énoncé les normes juridiques pertinentes pour évaluer le problème, identifié les faits soulevés ou analysé ces faits pour parvenir à une conclusion. Peut-être parce qu'OpenAI a utilisé RLHF pour empêcher ChatGPT de faire des déclarations fortes et pour embrasser l'incertitude, ChatGPT était parfois excessivement méfiant, refusant de faire un argument sur l'interprétation la plus plausible des faits pertinents lorsque ces faits pointaient potentiellement dans des directions concurrentes.
ChatGPT a également parfois mal compris les termes techniques contenus dans les examens. Par exemple, il a mal compris le terme "paiement forfaitaire" dans l'examen des avantages sociaux, peut-être parce que ChatGPT est un modèle de langage à usage général et que l'expression n'est pas largement utilisée en dehors de certains paramètres financiers.
Conclusion
Le très populaire ChatGPT a fait ses débuts fin novembre et est gratuit pour les utilisateurs. Il génère des réponses basées sur les demandes des utilisateurs et des montagnes de données, y compris des textes juridiques.
D'autres universitaires en droit ont également expérimenté le programme. Le doyen en droit de l'Université de Suffolk, Andrew Perlman, a co-écrit un article scientifique avec le programme en décembre. Deux autres professeurs de droit ont demandé à ChatGPT de répondre aux questions à choix multiples de l'examen du barreau. Il n'a pas réussi mais a mieux fonctionné que prévu.
Source : livre blanc « ChatGPT va à l'école de droit »
Voir aussi :
ChatGPT réussit un examen de MBA donné par un professeur de l'université de Pennsylvannie après un d'informatique pour élèves du secondaire désireux d'obtenir des crédits universitaires US
ChatGPT réussit l'examen de la faculté de droit des États-Unis malgré des performances médiocres
Des professeurs estiment que cela pourrait signer la fin des méthodes d'enseignement traditionnelles
ChatGPT réussit l'examen de la faculté de droit des États-Unis malgré des performances médiocres
Des professeurs estiment que cela pourrait signer la fin des méthodes d'enseignement traditionnelles
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !