Developpez.com - Rubrique IA

Le Club des Développeurs et IT Pro

Des chercheurs en IA affirment que le modèle de langage GPT-4 d'OpenAI pourrait passer l'examen du barreau,

Et relance le débat sur le remplacement des avocats et des juges par des systèmes d'IA

Le 2023-01-04 15:55:47, par Bill Fassinou, Chroniqueur Actualités
Des chercheurs du Chicago Kent College of Law, de la Bucerius Law School de Hambourg et du Stanford Center for Legal Informatics (CodeX) ont testé GPT-3.5 sur des questions de l'examen du barreau américain. Sur la base des résultats obtenus lors du test, ils prévoient que GPT-4, ainsi que des modèles comparables, pourraient être en mesure de réussir l'examen très bientôt. Sans formation spécifique, GPT-3.5 a obtenu un taux de précision global de 50,3 %. Les examinateurs estiment que c'est mieux que ce que beaucoup de diplômés de l'école de droit peuvent atteindre. Et en particulier, GPT a atteint le taux de réussite moyen pour deux sujets : Preuves et Délits.

Aux États-Unis, presque toutes les juridictions exigent un examen de licence professionnelle connu sous le nom de "Bar Exam". En réussissant cet examen, les avocats sont admis au barreau d'un État américain. Dans la plupart des cas, les candidats doivent suivre au moins sept ans d'études postsecondaires, dont trois ans dans une école de droit accréditée. Selon les analystes, la préparation de l'examen prend des semaines, voire des mois, et environ une personne sur cinq échoue au premier essai. Dans le cadre d'une étude, les chercheurs ont examiné comment le modèle GPT-3.5, qui sert de base à ChatGPT, se comporte à l'examen du barreau.

En effet, alors que le monde entier attendait GPT-4, la prochaine version de GPT-3, OpenAI a publié en décembre dernier GPT-3.5 sous la forme d'un nouveau chatbot d'IA, appelé ChatGPT, qui a vu plus d'un million d'utilisateurs moins d'une semaine après son lancement. ChatGPT est une version affinée de GPT-3.5, une mise à jour que la société n'avait pas encore annoncée. Le chatbot a montré ses capacités à générer du texte dans un format de dialogue, ce qui, selon la société, lui permet de répondre à des questions de suivi, d'admettre ses erreurs, de contester des prémisses incorrectes et de rejeter des demandes inappropriées.



Les modèles GPT-3.5 et ChatGPT affichent des performances impressionnantes dans divers scénarios de traitement du langage naturel, dépassant souvent les modèles de langage explicitement formés pour des domaines spécifiques. Les données d'entraînement des modèles GPT ne sont pas complètement connues, mais les modèles ont probablement vu des textes juridiques provenant de sources publiques. Cependant, étant donné la nature complexe du langage juridique et l'aspect généraliste de GPT-3.5, la question de savoir si GPT-3.5 ou des modèles comparables pourraient réussir dans les évaluations de tâches juridiques reste ouverte.

Ainsi, l'équipe a décidé de tester le modèle de langage GPT-3.5 d'OpenAI sur la section à choix multiple de l'examen du barreau, connue sous le nom de Multistate Bar Examination (MBE). Pour ces tests, les chercheurs n'utilisent que des invites de type "zero-shot". Dans la littérature sur l'ingénierie des invites, le terme "zéro-shot" fait souvent référence à un contexte où des données étiquetées zéro sont utilisées pour l'entraînement ou l'inférence de modèles de langage. Dans un sens plus large, "zero-shot" fait référence à "l'apprentissage d'un modèle de langage pour faire quelque chose qu'il n'a pas été explicitement formé à faire".

Le MBE fait partie de l'examen complet, comprend environ 200 questions et est conçu pour tester les connaissances juridiques et la compréhension de la lecture. Selon les chercheurs, les scénarios fictifs exigent une maîtrise sémantique et syntaxique de la langue anglaise supérieure à la moyenne. Le graphique et le tableau ci-dessus montrent clairement que GPT ne réussit pas encore l'examen général à choix multiple. Selon les chercheurs, GPT-3.5 a été capable de donner des réponses correctes aux questions avec une variété d'invites, mais la plus réussie était une invite qui demandait au modèle de classer les trois meilleures réponses.

GPT dépasse largement le "taux de chance de base" de 25 %. De plus, GPT a atteint le taux de réussite moyen pour au moins deux catégories, Preuves et Délits. En moyenne, toutes catégories confondues, GPT a un taux de réussite inférieur d'environ 17 % à celui des candidats humains. Dans le cas de la preuve, des délits civils et de la procédure civile, cet écart est négligeable ou à un chiffre. Cependant, les chercheurs affirment que, pour les autres catégories de droit constitutionnel, de biens immobiliers, de contrats et de droit pénal, l'écart est beaucoup plus important, allant jusqu'à 36 % dans le cas du droit pénal.

Pour le test, l'équipe a utilisé le matériel de préparation de la National Conference of Bar Examiners (NCBE), l'organisation qui crée la majeure partie des examens du barreau. Sur le graphique ci-dessus, la zone bleue indique la moyenne des étudiants du NCBE, et la zone rouge indique le meilleur choix généré par GPT. Comme vous pouvez le voir, pour les preuves (Evidence) en particulier, la machine est prête à battre l'homme. Les auteurs, qui sont des experts en droit, se sont dits extrêmement surpris par les résultats. Ils s'attendent à ce que GPT-4 soit capable de réussir le MBE lorsque le nouveau modèle sera publié par OpenAI.



Les auteurs de l'étude affirment que GPT-3.5 dépasse largement les performances attendues : « malgré les milliers d'heures passées sur des tâches connexes au cours des deux dernières décennies entre les auteurs, nous ne nous attendions pas à ce que GPT-3.5 fasse preuve d'une telle compétence face à des invites de type "zero-shot" avec un effort minimal de modélisation et d'optimisation ». Selon les chercheurs, l'histoire du développement de grands modèles de langage (Large Language Models - LLM) suggère fortement que de tels modèles pourraient bientôt réussir toutes les catégories de la partie MBE de l'examen du barreau.

Sur la base de preuves anecdotiques liées à GPT-4 et à la famille de modèles Bloom de la société LAION, les chercheurs pensent que cela pourrait se produire dans les 18 prochains mois. « Bien que notre capacité à interpréter comment ou pourquoi GPT-3.5 choisit entre les réponses candidates soit limitée par la compréhension des LLM et la nature propriétaire de GPT, l'historique des problèmes similaires suggère fortement qu'un LLM pourrait bientôt passer la barre. Il est tout à fait possible que cela se produise dans les 0 à 18 prochains mois », ont écrit les chercheurs dans le rapport de l'étude.

Leur étude relance le débat sur le remplacement des avocats humains par des systèmes d'IA. La Chine s'emploie depuis plusieurs années à mettre en place un système de « tribunaux intelligents » en intégrant l'IA dans son système judiciaire. Le nouveau système exige que les juges consultent l'IA sur chaque cas, et s'ils rejettent une recommandation de l'IA, ils doivent fournir une explication écrite. Un étude publiée en juillet 2022 indique qu'en remplaçant les avocats humains par l'IA, le système judiciaire chinois a économisé 45 milliards de dollars en frais entre 2019 et 2021, soit la moitié du total des honoraires des avocats en Chine en 2021.

Face à cela, Zhang Linghan, professeur de droit chinois, met en garde : « nous devons être attentifs à l'érosion du pouvoir judiciaire par les entreprises technologiques. Cela pourrait améliorer l'efficacité et l'équité dans une certaine mesure, mais les humains perdront progressivement leur libre arbitre avec une dépendance croissante à la technologie ». Dans certains pays, y compris en France, des cabinets d'avocats font appel à des entreprises qui vantent des technologies juridiques capables d'analyser des millions de décisions de justice à la seconde, ce qui permet par exemple d'évaluer la probabilité de succès d'une action contentieuse.

Certaines des entreprises technologiques qui proposent ces systèmes construisent également des modèles de comportement des juges sur certaines questions ou face à différents arguments juridiques. Avec de telles informations, les cabinets d'avocats peuvent optimiser leurs stratégies devant les tribunaux. Cependant, en juin 2019, la France a décidé de bannir les IA de prédiction des comportements des juges. Selon certains experts, les technologies de justice prédictive représentent une menace pour la société. Ils mettent en avant les biais que peuvent comporter ces systèmes d'IA, notamment sur le plan racial, sexuel et social.

Sources : Des chercheurs du Chicago Kent College of Law, de la Bucerius Law School Hamburg et du Stanford Center for Legal Informatics (CodeX), Rapport de l'étude (PDF), Données complémentaires à l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des résultats obtenus par GPT-3.5 à l'examen du barreau ?
Pensez-vous également que GPT-4 pourrait bientôt réussir l'examen du barreau ? Pourquoi ?
Quels impacts ces modèles de langage pourraient-ils avoir sur le système judiciaire ?
À votre avis, les systèmes d'IA pourraient-ils remplacer les avocats et les juges dans les tribunaux ?

Voir aussi

En remplaçant les avocats humains par l'IA, le système judiciaire chinois aurait économisé 45 Mds $ en frais entre 2019 et 2021, soit la moitié du total des honoraires des avocats en Chine en 2021

La France bannit les IA de prédiction des comportements des juges, les technologies de justice prédictive sont-elles une menace pour la société ?

Une intelligence artificielle peut-elle être un juge équitable dans un tribunal ? L'Estonie pense que oui

Intelligence artificielle : vingt avocats expérimentés se font battre par un algorithme lors d'un test de détection de problèmes juridiques
  Discussion forum
697 commentaires
  • thamn
    Membre averti
    Envoyé par Erviewthink
    Si il n'est pas content il change de boulot, personne ne l'a obligé à faire ça.

    Pas compliqué si ? C'est à cause des personnes comme ça qu'il y a du dumping social.

    Si les gens refusaient ces boulots sous payés il n'y aurait pas ce problème.

    Mais bon comme la majorité des gens n'ont pas ou peu de dignité...
    Ah oui bien sur, pour changer de boulot suffit de traverser la rue comme disait l'autre.
    Essaye de changer de job sans debaler ton joli diplome qui t'aurais couté un bras au US, et revient nous en causer apres.
  • babacool421
    Nouveau membre du Club
    Envoyé par Mat.M
    la méga différence entre Google et ChatGPT c'est que le premier est une entreprise vraiment commerciale qui gagne du cash.
    ChatGPT je sais pas ce que c'est, est-ce un outil développé par un collectif d'universitaires ?
    Comment ce truc 'est financé ?

    Google est dirigé par des informaticiens, Serguei Brin en particulier, est un ingénieur/chercheur brillant qui développe et intervient sur les projets R&D encore aujourd'hui. Serguei est convaincu pour avoir eu la chance de participer à une conférence "intimiste" que l'émergence de l'IA forte est primordiale et une étape importante dans l'évolution de notre civilisation (voir pour sa survie). L'IA forte nous permettrait, selon lui, de faire un nouveau bon technologique et de résoudre plus rapidement des problématiques hors de portée de l'intelligence humaine à ce jour (amélioration importante de la durée de vie, maitrise de la fusion nucléaire ou des réactions matières/anti-matière, maitrise du voyage interstellaire (trou de vers, métrique d’Alcubierre,...),...
    N'oublions pas qu'à tout moment un évènement stellaire pourrait détruire notre habitat (comète, sursaut gamma, trou noir errant) et même le réveil des trapps de sibérie pour rendre notre planète inhabitable. Cet évènement arrivera et nous ne pouvons prédire quand. Demain peut-être.

    remarque pertinente..sans trop faire du H.S. j'espère que c'est possible pour nos "fleurons" hexagonaux comme Cap ou Atos quand on voit les déboires d'Atos...
    Citez moi une innovation technologique impactante à l'échelle de l'humanité (même de l'Europe) développée de Cap ou Atos ? Pour avoir travaillé pour ces entreprises et d'autres ESN, ces sociétés détournent les dispositifs comme le CIR/CII pour améliorer leur marge au lieu de financer de vrais projets R&D et développer des nouvelles technologies. Et même les ratios de ces "faux" budgets R&D sont ridicules comparés aux investissements de Google ou Amazon.
    En France, nous sommes très bons en recherche fondamentale ou en recherche appliquées de part notre réseau universitaire et d'école assez performant. Mais, les entreprises françaises qui profitent de ses travaux sont dirigés par des investisseurs, des ignorants en science, incapable de juger par eux même de la pertinence d'une thèse par rapport à une autre. Nous avons probablement entre 10 et 15 ans de retard sur la R&D sur le domaine de l'informatique, l'IA ou la robotique par rapport à Google et Amazon.
  • electroremy
    Membre éprouvé
    Bonjour,

    Le problème avec ChatGPT, ou plus généralement à notre époque, c'est qu'on a énormément d'informations à disposition MAIS il y a de bonnes et de fausses informations mélangées.
    De plus, un certain nombre de bonnes informations sont parfois méconnues.

    C'est vrai dans tous les domaines.

    J'ai 42 ans, ingénieur généraliste, passionné de bricolage, j'en apprends encore tous les jours, et notamment des choses que "j'aurais dû savoir avant"

    Quelques exemples :

    J'ai fait moi-même mon chauffage central il y a 15 ans.
    J'ai découvert il y a 2 ou 3 ans qu'un mitigeur thermostatique n'était pas compatible avec une chaudière à production d'eau chaude instantanée
    Et qu'il fallait ajuster la température de l'eau chaude au minimum, de façon à ne se doucher qu'avec de l'eau chaude (qui est en fait tiède)
    La chaudière (modèle à condensation) fonctionne mieux, avec un meilleur rendement, et il n'y a pas de risque sanitaire car il n'y a pas d'accumulation d'eau chaude, étant donné que la production d'eau chaude est instantanée. C'est uniquement quand de l'eau chaude stagne (cumulus) qu'il faut qu'elle soit suffisamment chaude pour éviter un risque sanitaire.
    Cette information, beaucoup de gens, y compris "du métier", ne la connaissent pas ou pire disent qu'elle est fausse.

    Autre sujet : le béton.
    La meilleure façon de bien couler du béton c'est :
    - de mettre la quantité d'eau minimum : quand sur le sac c'est écrit "2,7 à 3 litres d'eau" il faut mettre 2,7 litres d'eau pas plus
    - d'ajouter du fluidifiant (produit spécifique)
    - de vibrer le béton une fois coulé
    Beaucoup de gens l'ignorent, et notamment mettent trop d'eau => le béton est fragile, il y a un risque de malfaçon importante voir un danger si la structure est porteuse...
    Même en magasin de bricolage, j'ai vu des vendeurs conseiller de doser l'eau au pifomètre !
    Même des "professionnels" ajoutent de l'eau dans la toupie pour travailler plus facilement
    Ces gens sont incompétents, ce sont des escrocs qui mettent des vies en danger.

    ChatGPT se base sur Internet.
    Internet est démocratique.
    Mais, comme l'a dit mon prof de physique en 1re année de prépa (cela m'avait choqué à l'époque) :
    "Le problème avec la démocratie, c'est quand 10 personnes se trompent et 9 personnes ont juste, et bien on donne raison aux 10 personnes qui se trompent"
    Les réseaux sociaux, en permettant à n'importe qui de publier très facilement n'importe quoi, ont amplifié le phénomène.
    Avant les réseaux sociaux, créer un site demandait un minimum de travail, et pour avoir des visiteurs il fallait publier des contenus intéressants, ça faisait office de filtre (même si il pouvait y avoir pas mal de conneries quand même mais nettement moins qu'aujourd'hui )
    D'autant que les algorithmes des réseaux sociaux sont conçus pour amplifier les contenus émotionnels négatifs.
    ChatGPT va juste faire la moyenne de tout.
    Certes pour quelqu'un qui n'y connais rien sur un sujet, ChatGPT va probablement apporter une réponse.
    Mais par rapport aux experts de chaque domaine, ChatGPT est clairement en dessous.
    L'IA aboutit donc à un nivellement par le bas

    Ainsi le créationnisme en vient à être enseigné dans certains pays comme théorie aussi valable que la théorie de l'évolution
    Et on voit, en 2023, des gens croire que la terre est plate.

    Que dire de l'IA ? On devrait plutôt parler de connerie artificielle
  • Si je resume, je dois travailler jusqu'a 64 ans mais je serais remplacé par une IA prochainement... Quelle belle époque !
    Bon, faut donc que je trouve une méthode pour vivre des aides, tranquille, loin du stress...
  • electroremy
    Membre éprouvé
    Que penser de toute cette agitation autour de "l'intelligence artificielle" ?

    D'abord, sur le principe il n'y a rien de nouveau. Les réseaux de neurones, algorithmes génétiques, la logique floue, les systèmes experts existent depuis des décennies. Au début des années 2000, j'avais moi même utilisé un algorithme génétique qui donnait "presque miraculeusement" rapidement de bons résultats à un problème d'optimisation.

    Aujourd'hui, nous avons juste à disposition :

    - des ordinateurs beaucoup plus rapides avec beaucoup plus de mémoire

    - beaucoup de données exploitables facilement et directement, grâce (ou à cause) de l'usage de l'informatique dans la vie quotidienne et professionnelle.

    Les résultats sont impressionnants, notamment grâce à la façon dont ils sont présentés : langage "naturel", synthèse vocale de bonne qualité, avatars en 3D voire vidéos réalistes.

    Il faut garder la tête froide : ces dispositifs ne "réfléchissent" et ne "comprennent" pas du tout. Ce sont des boites noires, qui arrivent à sortir rapidement un résultat connu depuis les données dont ils disposent.

    Ils sont similaires à une grande encyclopédie : une étagère complète de livres épais qui "connaissent" toutes les définitions, toutes les biographies, tous les faits historiques... pourtant personne ne va trouver une encyclopédie "intelligente".

    Cette "intelligence artificielle" peut se planter de façon totalement imprévisible, comme le montrent les expérimentations sur la conduite autonome des voitures dans un milieu ouvert.

    De plus, elle ne semblent pas pouvoir inventer des choses réellement nouvelles - attention, la grande quantité de données dont elles disposent peuvent laisser croire le contraire, car les capacités des datacenters actuels dépassent les capacités de mémorisations du commun des mortels. Si une IA vous donne l'impression d'avoir fait quelque chose de nouveau, c'est probablement parce qu'elle a des données sur quelque chose que vous ne connaissez pas, ce qui vous laisse croire que c'est nouveau.

    En fait c'est ça la véritable leçon de l'histoire : aujourd'hui, l'humanité a accumulé tellement de connaissances sur tellement de sujets qu'il est impossible pour quelqu'un de tout savoir. Même si vous êtes touche-à-tout, que vous lisez beaucoup de livres et écoutez beaucoup de musique, à la fin de votre vie vous n'aurez vu, entendu et compris qu'une toute petite partie de ce qui a été dit ou écrit...
  • schlebe
    Membre actif
    La moindre des choses à exiger des articles publiés par ChatGPT et qu'il les signe afin de permettre aux lecteurs de connaître la véritable source des articles.

    Il faudrait également sanctionner les sociétés qui publient des articles générés par ChatGPT avec du contenus inventés ou mensongers.

    Une amende de 2% du chiffre d'affaire par articles mensongers publiés et une amende de 2% du chiffre d'affaire par jour et par articles mensongers constatés et toujours publiés plus d'une semaine après le constat.

    Dans moins d'un mois, on ne parlera plus de ChatGPT de la même façon et il faudra engager du personnel pour vérifier tout ce qu'il aura écrit.
  • steel-finger
    Membre confirmé
    Envoyé par Erviewthink
    Si il n'est pas content il change de boulot, personne ne l'a obligé à faire ça.

    Pas compliqué si ? C'est à cause des personnes comme ça qu'il y a du dumping social.

    Si les gens refusaient ces boulots sous payés il n'y aurait pas ce problème.

    Mais bon comme la majorité des gens n'ont pas ou peu de dignité...
    La vie ne fonctionne pas comme ça, il faut que tu sortes de ton cocon pour t'en rendre compte.
    Malheureusement, il y a des personnes qui préfèrent nourrir leur enfant en prenant les boulots qui nuise à la dignité plutôt que de n'avoir aucune rentrée d'argent !
  • walfrat
    Membre émérite
    "Hey chatGPT, voilà toutes les donneés confidentielles économiques de mon entreprises, fait moi le rapport financier stp, j'ai la flème".
  • Jon Shannow
    Membre extrêmement actif
    Envoyé par coolspot
    Macron si on peut dire c'est un Poutine avec 20 ans de moins. Il se prépare deja à vouloir bidouiller la constitution ou faire comme la presse commence à le dire une "Poutine/Medvedev" pour etre président à vie
    Heu ! Tu as des infos la dessus ? Non seulement sur la préparation, mais aussi la faisabilité...
  • totozor
    Membre expert
    Envoyé par Ryu2000
    C'est pas marrant d'être sans emploi.
    C'est pas marrant d'être sans emploi dans un système capitaliste.
    Que se passerait il si les gens n'avaient plus besoin de se salarier pour vivre?
    La plupart travailleraient.
    Par exemple que font les retraités qui ont la santé?
    Il s'investissent dans les associations, ils gardent leurs petits enfants, ils investissent dans leur quartier, ils s'entreaident etc.
    (Et ceux qui revaient d'être rentiers partent en voyage)

    Pourquoi ceci n'est pas souhaitable?
    Comment nos dirigeants s'assureraient d'avoir de la main d'oeuvre (au sens large)?
    Bernard Arnault perdrait "de la valeur" (je ne dit pas qu'il n'en aurait plus) et Gérard l'éboueur, Géraldine l'aide soignante, Marcel le passionné d'astronomie en gagneraient

    Oui le monde que je décrit est peut être idéaliste mais il y a des faisceau de pistes qui suggèrent que c'est viable
    Et ce n'est qu'un monde à envisager parmi d'autres
    Celui dans lequel on vit ne semble pas viable pour la majorité.