Des chercheurs du Chicago Kent College of Law, de la Bucerius Law School de Hambourg et du Stanford Center for Legal Informatics (CodeX) ont testé GPT-3.5 sur des questions de l'examen du barreau américain. Sur la base des résultats obtenus lors du test, ils prévoient que GPT-4, ainsi que des modèles comparables, pourraient être en mesure de réussir l'examen très bientôt. Sans formation spécifique, GPT-3.5 a obtenu un taux de précision global de 50,3 %. Les examinateurs estiment que c'est mieux que ce que beaucoup de diplômés de l'école de droit peuvent atteindre. Et en particulier, GPT a atteint le taux de réussite moyen pour deux sujets : Preuves et Délits.Aux États-Unis, presque toutes les juridictions exigent un examen de licence professionnelle connu sous le nom de "Bar Exam". En réussissant cet examen, les avocats sont admis au barreau d'un État américain. Dans la plupart des cas, les candidats doivent suivre au moins sept ans d'études postsecondaires, dont trois ans dans une école de droit accréditée. Selon les analystes, la préparation de l'examen prend des semaines, voire des mois, et environ une personne sur cinq échoue au premier essai. Dans le cadre d'une étude, les chercheurs ont examiné comment le modèle GPT-3.5, qui sert de base à ChatGPT, se comporte à l'examen du barreau.
En effet, alors que le monde entier attendait GPT-4, la prochaine version de GPT-3, OpenAI a publié en décembre dernier GPT-3.5 sous la forme d'un nouveau chatbot d'IA, appelé ChatGPT, qui a vu plus d'un million d'utilisateurs moins d'une semaine après son lancement. ChatGPT est une version affinée de GPT-3.5, une mise à jour que la société n'avait pas encore annoncée. Le chatbot a montré ses capacités à générer du texte dans un format de dialogue, ce qui, selon la société, lui permet de répondre à des questions de suivi, d'admettre ses erreurs, de contester des prémisses incorrectes et de rejeter des demandes inappropriées.
Les modèles GPT-3.5 et ChatGPT affichent des performances impressionnantes dans divers scénarios de traitement du langage naturel, dépassant souvent les modèles de langage explicitement formés pour des domaines spécifiques. Les données d'entraînement des modèles GPT ne sont pas complètement connues, mais les modèles ont probablement vu des textes juridiques provenant de sources publiques. Cependant, étant donné la nature complexe du langage juridique et l'aspect généraliste de GPT-3.5, la question de savoir si GPT-3.5 ou des modèles comparables pourraient réussir dans les évaluations de tâches juridiques reste ouverte.
Ainsi, l'équipe a décidé de tester le modèle de langage GPT-3.5 d'OpenAI sur la section à choix multiple de l'examen du barreau, connue sous le nom de Multistate Bar Examination (MBE). Pour ces tests, les chercheurs n'utilisent que des invites de type "zero-shot". Dans la littérature sur l'ingénierie des invites, le terme "zéro-shot" fait souvent référence à un contexte où des données étiquetées zéro sont utilisées pour l'entraînement ou l'inférence de modèles de langage. Dans un sens plus large, "zero-shot" fait référence à "l'apprentissage d'un modèle de langage pour faire quelque chose qu'il n'a pas été explicitement formé à faire".
Le MBE fait partie de l'examen complet, comprend environ 200 questions et est conçu pour tester les connaissances juridiques et la compréhension de la lecture. Selon les chercheurs, les scénarios fictifs exigent une maîtrise sémantique et syntaxique de la langue anglaise supérieure à la moyenne. Le graphique et le tableau ci-dessus montrent clairement que GPT ne réussit pas encore l'examen général à choix multiple. Selon les chercheurs, GPT-3.5 a été capable de donner des réponses correctes aux questions avec une variété d'invites, mais la plus réussie était une invite qui demandait au modèle de classer les trois meilleures réponses.
GPT dépasse largement le "taux de chance de base"...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
