IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Près de trois quarts des juristes prévoient d'utiliser l'IA pour leur travail, ce qui est effrayant
Les modèles d'IA juridique hallucinent une fois sur six (ou plus) dans les évaluations comparatives

Le , par Jade Emy

39PARTAGES

7  0 
Près des trois quarts des avocats prévoient d'utiliser l'IA générative pour leur travail. Mais une nouvelle étude révèle la nécessité de procéder à des analyses comparatives et à des évaluations publiques des outils d'IA dans le domaine juridique. Lors des tests comparatives, les modèles juridiques hallucinaient une fois sur six (ou plus).

Les outils d'intelligence artificielle (IA) transforment rapidement la pratique du droit. Près des trois quarts des avocats prévoient d'utiliser l'IA générative pour leur travail, qu'il s'agisse de passer au crible des montagnes de jurisprudence, de rédiger des contrats, d'examiner des documents ou de rédiger des mémorandums juridiques. Mais ces outils sont-ils suffisamment fiables pour être utilisés dans le monde réel ?

Les grands modèles de langage ont une tendance documentée à "halluciner", ou à inventer de fausses informations. Dans un cas très médiatisé, un avocat new-yorkais a été sanctionné pour avoir cité des cas fictifs inventés par ChatGPT dans un mémoire juridique ; de nombreux cas similaires ont été signalés depuis.

Par ailleurs, une précédente étude sur les chatbots à usage général a révélé qu'ils hallucinaient entre 58 % et 82 % du temps sur des questions juridiques, ce qui met en évidence les risques liés à l'intégration de l'IA dans la pratique juridique. Dans son rapport annuel de 2023 sur le pouvoir judiciaire, le juge en chef Roberts en a pris note et a mis en garde les avocats contre les hallucinations.

Dans tous les domaines de l'industrie, la génération augmentée par récupération (RAG) est considérée et promue comme la solution pour réduire les hallucinations dans des contextes spécifiques à un domaine. S'appuyant sur la RAG, les principaux services de recherche juridique ont mis sur le marché des produits de recherche juridique alimentés par l'IA qui, selon eux, "évitent" les hallucinations et garantissent des citations juridiques "exemptes d'hallucinations".

Les systèmes RAG promettent de fournir des informations juridiques plus précises et plus fiables en intégrant un modèle linguistique à une base de données de documents juridiques. Cependant, les fournisseurs n'ont pas fourni de preuves tangibles de ces affirmations ni même défini précisément le terme "hallucination", ce qui rend difficile l'évaluation de leur fiabilité dans le monde réel.


Les outils de recherche juridique pilotés par l'IA hallucinent toujours

Dans une nouvelle étude réalisée par le Stanford RegLab et des chercheurs de l'HAI, des chercheurs ont mis à l'épreuve les affirmations de deux fournisseurs, LexisNexis (créateur de Lexis+ AI) et Thomson Reuters (créateur de Westlaw AI-Assisted Research et de Ask Practical Law AI)). L'étude montre que leurs outils réduisent effectivement les erreurs par rapport aux modèles d'IA à usage général tels que GPT-4.

Il s'agit d'une amélioration substantielle et l'étude documente des cas où ces outils fournissent une recherche juridique solide et détaillée. Cependant, même ces outils d'IA juridique sur mesure continuent de produire des hallucinations dans des proportions alarmantes : les systèmes d'IA Lexis+ et Ask Practical Law ont produit des informations incorrectes dans plus de 17 % des cas, tandis que le système AI-Assisted Research de Westlaw a produit des hallucinations dans plus de 34 % des cas.

Les chercheurs partagent leurs méthodologies lors de l'étude :


Pour réaliser notre étude, nous avons construit manuellement un ensemble de données préenregistrées de plus de 200 requêtes juridiques ouvertes, que nous avons conçues pour sonder divers aspects de la performance de ces systèmes.

De manière générale, nous avons étudié (1) les questions de recherche générale (questions sur la doctrine, la jurisprudence ou l'examen du barreau) ; (2) les questions spécifiques à une juridiction ou à une période (questions sur les divisions de circuits et les changements récents dans le droit) ; (3) les questions sur les fausses prémisses (questions qui imitent un utilisateur ayant une compréhension erronée du droit) ; et (4) les questions sur le rappel des faits (questions sur des faits simples et objectifs qui ne nécessitent aucune interprétation juridique). Ces questions sont conçues pour refléter un large éventail de types de requêtes et pour constituer un ensemble de données réelles stimulantes sur les types de requêtes pour lesquelles la recherche juridique peut être la plus nécessaire.
Selon l'étude, ses systèmes peuvent avoir des hallucinations de deux manières. Premièrement, une réponse d'un outil d'intelligence artificielle peut tout simplement être incorrecte - elle décrit mal le droit ou commet une erreur factuelle. Deuxièmement, une réponse peut être mal fondée - l'outil d'IA décrit correctement le droit, mais cite une source qui n'étaye pas ses affirmations.


Étant donné l'importance cruciale des sources faisant autorité dans la recherche et la rédaction juridiques, le deuxième type d'hallucination peut être encore plus pernicieux que l'invention pure et simple d'affaires juridiques. Une citation peut être "sans hallucination" dans le sens le plus étroit où la citation existe, mais ce n'est pas la seule chose qui compte.

La promesse principale de l'IA juridique est qu'elle peut rationaliser le processus fastidieux d'identification des sources juridiques pertinentes. Si un outil fournit des sources qui semblent faire autorité mais qui sont en réalité non pertinentes ou contradictoires, les utilisateurs pourraient être induits en erreur. Ils pourraient accorder une confiance excessive aux résultats de l'outil, ce qui pourrait conduire à des jugements et conclusions juridiques erronés.

La génération augmentée par récupération (RAG) n'est pas une panacée

Ces nouveaux outils d'IA juridique utilisent la génération augmentée par récupération (RAG) pour produire leurs résultats, une méthode que beaucoup vantent comme une solution potentielle au problème de l'hallucination.

En théorie, la RAG permet à un système de récupérer d'abord le matériel source pertinent et de l'utiliser ensuite pour générer la réponse correcte. En pratique, cependant, l'étude montre que même les systèmes RAG ne sont pas exempts d'hallucinations.


Exemple d'hallucinations

Les chercheurs identifient plusieurs défis qui sont particulièrement propres aux systèmes d'IA juridique basés sur la RAG et qui provoquent des hallucinations :


Tout d'abord, la recherche juridique est difficile. Comme tout avocat le sait, trouver l'autorité appropriée (ou la meilleure) n'est pas une tâche facile. Contrairement à d'autres domaines, le droit n'est pas entièrement composé de faits vérifiables - au lieu de cela, le droit est construit au fil du temps par des juges qui rédigent des avis.

Il est donc difficile d'identifier l'ensemble des documents qui répondent définitivement à une requête, et il arrive que des hallucinations se produisent pour la simple raison que le mécanisme de recherche du système échoue.

Deuxièmement, même lorsque l'extraction a lieu, le document extrait peut être une autorité inapplicable. Dans le système juridique américain, les règles et les précédents diffèrent d'une juridiction à l'autre et d'une période à l'autre ; les documents qui pourraient être pertinents à première vue en raison de leur similitude sémantique avec une requête peuvent en fait être inapplicables pour des raisons idiosyncrasiques propres à la loi.

Ainsi, nous observons également des hallucinations lorsque ces systèmes de RAG ne parviennent pas à identifier l'autorité réellement contraignante. Ceci est particulièrement problématique car les domaines où le droit est en évolution sont précisément ceux où la recherche juridique est la plus importante.

Un système, par exemple, a incorrectement récité la norme du « fardeau indu » pour les restrictions à l'avortement comme une bonne loi, qui a été renversée dans l'affaire Dobbs.

Troisièmement, la flagornerie - la tendance de l'IA à approuver les hypothèses incorrectes de l'utilisateur - présente également des risques uniques dans le domaine juridique.

Un système, par exemple, a naïvement accepté la prémisse de la question selon laquelle la juge Ginsburg était dissidente dans l'affaire Obergefell, qui a établi le droit au mariage homosexuel, et a répondu qu'elle l'était en raison de ses opinions sur le droit d'auteur international. (La juge Ginsburg n'a pas été dissidente dans l'affaire Obergefell et, non, l'affaire n'avait rien à voir avec le droit d'auteur).

Malgré cette réponse, les résultats sont optimistes. Nos tests ont montré que les deux systèmes naviguaient généralement de manière efficace dans les requêtes basées sur des prémisses erronées.

Mais lorsque ces systèmes sont d'accord avec les affirmations erronées des utilisateurs, les conséquences peuvent être graves, en particulier pour ceux qui espèrent utiliser ces outils afin d'améliorer l'accès à la justice pour les plaideurs autonomes et ceux qui ne disposent pas de ressources suffisantes.

Processus de la RAG

L'intégration responsable de l'IA dans le droit exige de la transparence

En fin de compte, ces résultats soulignent la nécessité d'une évaluation comparative rigoureuse et transparente des outils juridiques d'IA. Contrairement à d'autres domaines, l'utilisation de l'IA en droit reste...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 03/06/2024 à 15:08
En tant que Juriste je peux vous dire qu'on utilisera jamais ça dans ma boîte, on a testé le produit Lexis, c'est juste un index de recherche qui parle.

J'ai testé Ordalie c'est du même acabit, ils règlent le problème des sources en adoptant le parti pris de ne pas présenter de source (ce qui est le truc le plus débile à faire dans le monde juridique) et de répondre en étant le plus évasif possible. Si je lui demande comment transformer une SCI en SAS et vice versa le truc répond la même chose. Game over puisque du coup ça n'est même pas pour le moment au niveau d'article écris par des juniors.

Pour les particuliers c'est encore plus dangereux puisqu'avant de vouloir une réponse, il faut déjà savoir quoi demander
3  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 12/11/2025 à 0:36
Remplacez le jargon des avocats par celui des développeurs et vous aurez un autre article criant de vérité :
L’automatisation du développement logiciel

Ce que révèle cette crise, c’est la mutation d’un métier fondé sur la précision, la nuance et la responsabilité. L’usage d’outils comme GPT, Claude ou Copilot promet de gagner du temps, d’améliorer la clarté ou de simplifier la recherche de code. Mais le revers de la médaille, c’est la perte du contrôle intellectuel.

Là où le développeur devrait interpréter, il se contente parfois de recopier. Là où il devrait peser chaque instruction, il laisse l’algorithme formuler des généralités verbeuses. Le « slop coding » n’est pas qu’un problème de style : il est la preuve d’une déresponsabilisation progressive, d’un glissement où le code devient une simple sortie de modèle statistique.

Et dans le domaine logiciel, une erreur de raisonnement ou une valeur inventée ne se corrige pas comme une coquille dans un e-mail : elle peut fausser une décision, nuire à un client, voire porter atteinte à la société.
Pas plus tard que vendredi je parlais avec mes collègues de faire la distinction entre ceux qui sont rigoureux et ceux qui ne le sont pas :
  • les rigoureux peuvent tirer de l'IA les principaux avantages, car leur rigueur s'assure qu'ils vérifient derrière et comprennent ce qu'ils font, l'IA peut alors faire gagner un peu de temps sur les parties à écrire qu'on maîtrise déjà (peu de temps de vérification nécessaire) ou beaucoup pour les juniors qui peuvent focaliser leur temps d'apprentissage sur ce qui marche (moins de recherches infructueuses, qui peuvent apprendre des trucs mais moins pertinentes à l'instant T), et pour le reste rend surtout le job plus fun
  • les non-rigoureux par contre ont toutes les chances de donner une fausse impression de gros coup de pouce sur le court terme, en se contentant de copier sans vraiment réfléchir à ce qu'ils font, donnant l'impression qu'ils exploitent mieux l'IA alors qu'en fait les conséquences néfastes ne s'en ressentiront que plus tard, introduisant des coûts qui gomment les avantages illusoires de court terme. Quant au long terme, à force de se laisser aller à l'IA, ils ne forgeront pas leur propre expertise, se contentant de rester dépendants d'outils qu'ils ne maîtrisent pas et de stagner à leur niveau. Rendant le renouvellement des générations de dévs précaire.


En tant que développeurs, c'est à nous de nous assurer que nos juniors et nos employeurs ne tombent pas dans le panneau.

Pour les ingénieurs français, inscrits au répertoire des Ingénieurs et Scientifiques de France (IESF), il en va de notre responsabilité d'informer et de former :
https://www.iesf.fr/752_p_49680/char...ingenieur.html
Citation Envoyé par Charte IESF
En tant que membres d’un collectif de travail, l'ingénieur et le scientifique :
  • se mettent au service de leurs commanditaires et les informent des risques et contraintes (sociaux, environnementaux, économiques) des solutions proposées (Sens du service),
  • ...
  • participent à l'adaptation des activités de leur collectif de travail aux évolutions de la société et de l’environnement (Agilité),
  • encouragent la montée en compétences techniques et scientifiques de leurs collaborateurs et équipes (Management),
  • travaillent méthodiquement afin d’assurer la traçabilité des résultats et des données qui fondent les décisions de leur collectif de travail (Transparence),
  • participent activement à la gouvernance de leur collectif de travail (Engagement),
  • ...
  • signalent, de bonne foi et de manière désintéressée, les risques et les atteintes graves envers les droits humains, les libertés fondamentales, la santé et la sécurité des personnes, ainsi que l’environnement, résultant des activités de leur collectif de travail (Intégrité).
Citation Envoyé par Charte IESF
En tant que membres de la société toute entière, l’ingénieur et le scientifique :
  • ...
  • adoptent une posture active dans la société en éclairant l'opinion publique sur les problématiques qui nécessitent une vision de l'ingénieur ou du scientifique (Citoyenneté),
  • transmettent leur savoir scientifique et leur expérience, en les rendant accessibles au plus grand nombre (Vulgarisation),
  • ...
3  0 
Avatar de PascalC67
Nouveau Candidat au Club https://www.developpez.com
Le 11/11/2025 à 1:29
entre les réponses approximatives façon profession de foi ("vous nous avez demandé si... nous certifions que" sans aucune réf juridique) et les inventions c'est catastrophique. dans les cas les plus fréquents l'IA est co... comme une b... quel écran de fumée, tout ça pour facturer. Un bon vieux moteur de recherches qui pointe vers des données validées... pas photo. ça c'est pire que tout.
2  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 14/11/2025 à 7:35
Citation Envoyé par calvaire Voir le message
Ça répond déjà à un besoin, aux usa celui qui veut pas mettre 500€ dans une consultation médicale ou un avocat utilise déjà chatgpt et se débrouille.
Et soigne sa dépression en se pendant.
l'école de mes gosses et payante mais c'est 15 élèves dans la classe avec 2 profs, la oui y'a une value d'avoir un humain. Mais cela a un prix.
Bienvenue dans le capitalisme : tu veux sortir du lot? Payes.
2  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 13/06/2024 à 14:08
26 secondes pour que l'IA analyse le contrat et 94 minutes pour un avocat. OK, combien de temps passés à programmer l'IA pour qu'elle soit aussi efficace sur ce segment spécifique d'une analyse de documents ? Remplacer le contrat de non divulgation par un babar l'éléphant et le truc ne sait déjà plus ou il habite non ?

Quoiqu'il en soit ça laisse songeur. J'aimerais bien pouvoir passer moins de temps à la rédaction et la vérification et si l'IA pouvait s'assurer que je fasse pas de bourde dans les chiffres ou une clause particulière c'est vrai qu'au final ce serait pas mal.

Après comme d'habitude ça soulève plus d'interrogation que de solution et évidemment tout le monde se lance dedans tête baissée
0  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 12/11/2025 à 16:01
Citation Envoyé par Stéphane le calme Voir le message
Un mouvement se développe au sein de la profession pour recenser les affaires inventées par l'IA utilisées par leurs confrères

Aux États-Unis, les tribunaux commencent à crouler sous des documents juridiques « slopifiés » – des textes générés ou fortement assistés par des intelligences artificielles qui déforment la logique, inventent des jurisprudences et brouillent le langage du droit. Ce phénomène, dénoncé par des juristes eux-mêmes, marque une dérive inquiétante : celle d’une profession qui, en cédant trop vite à la tentation de l’IA, met en péril la rigueur de sa propre parole.
Vraie question bête : est il si compliqué de développer une IA qui vérifie ces plaidoiries.
Les gars écrivent des plaidoiries en 5 min?
On est pas capable de les détruire à peine plus lentement?
Surtout que les gens doivent donner des sources (articles, jurisprudence du xx/xx/xxxx etc).
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 12/11/2025 à 20:37
Citation Envoyé par totozor Voir le message
Vraie question bête : est il si compliqué de développer une IA qui vérifie ces plaidoiries.
Elle te générera, comme les autres, un texte plausible. Correct quand tu as de la chance, avec des illusions quand tu en as moins, genre elle invente des bons points ou des mauvais points que la plaidoirie n'a pas, ou de vrais critiques mais sur la base de raisons inventées. Si on pouvait faire ça, on pourrait tout aussi bien faire des plaidoiries qui tiennent la route. Tu ne peux jamais rien "vérifier" avec un LLM, quel que soit le prompt. Tu peux générer une analyse plausible, mais il faut toujours repasser derrière pour confirmer, sinon tu ne sais pas quand tu te baseras sur du bullshit.

Et si par IA tu parles d'autre chose que du LLM, le soucis est que c'est une tâche de traitement du langage en premier lieu, là où justement les LLM sont bons. Le truc est qu'il faut combiner ça avec de la logique (juridique, pour le coup) ce qui est hors de leur portée. À voir avec les futures technos en cours de construction (JEPA ?).
0  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 13/11/2025 à 8:05
Citation Envoyé par Matthieu Vergne Voir le message
Tu ne peux jamais rien "vérifier" avec un LLM, quel que soit le prompt.
Et si par IA tu parles d'autre chose que du LLM, le soucis est que c'est une tâche de traitement du langage en premier lieu, là où justement les LLM sont bons. Le truc est qu'il faut combiner ça avec de la logique (juridique, pour le coup) ce qui est hors de leur portée. À voir avec les futures technos en cours de construction (JEPA ?).
je comprends bien qu'on a besoin d'un LLM à la base pour identifier les sources mais ça ne doit pas être la mer à boire. Nous arrivons à développer des IA qui identifient des exigences ou retrouvent des sujets dans nos procédures alors que ce n'est pas notre coeur de métier, en grande partie parce que les documents sont très normalisés et les mots clés sont facile à retrouver ("jurispridence" "article" par exemple pour le juridique).
Ne peut-on pas se contenter ensuite d'un "moteur de recherche automatisé" pour aller chercher les références? L'objectif premier est d'identifier les plaidoiries avec des fausses sources.
On peut ensuite remettre une couche de LLM pour extraire le texte des source identifiée et sortir un facteur de corrélation.

Je vois bien que la première étape est pas si évidente et le risque (qu'on voit chez les élèves) d'uniformisation des plaidoiries.
Mais on se retrouve quand même face à des gens qui protègent leur profession de l'IA pour à la fin se transformer en porte parole de celles ci et qui ne se donnent même pas le mal de les relire et faire leur boulot.
je suis sincèrement pour que les professionnels puissent se protéger des IA mais je pense aussi qu'il faut être sans pitié pour ceux qui se cache derrière ça mais n'assurent pas leur travail à la fin. Et si la vague est si grosse alors il faut combattre le feu par le feu ou embaucher une armée de "légicheckeurs" qui seront les légistes fraudeurs de demain
0  0 
Avatar de AoCannaille
Expert confirmé https://www.developpez.com
Le 13/11/2025 à 10:32
Personnellement, ce qui m'étonne c'est que les avocats utilisent des LLM qui génère du bullshit alors que des IA du type systèmes experts existent et sont bien plus fiable (sans être parfaite).
J'imagine qu'il y a la place pour une combinaison des deux : L'avocat entre une série de faits dans le système expert, qui sort ensuite une série de texte de lois applicables, les fourchettes des peines encourues et la jurisprudence sur ces cas là, puis le LLM synthétise ces résultat là, rien d'autre.

Reste que la jurisprudence, c'est pas magique, c'est consigné par une poignée d'éditeurs qui doivent facturer cher l'accès à leur BDD.
0  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 13/11/2025 à 11:31
ce n'est pas prêt de s'arreter.

l'avocat peux traiter plus rapidement des affaires donc augmenter son ca.
il peut aussi décider de baisser les couts pour élargir sa clientèle.

A la fin ca fera une justice bien plus engorgé. On pourrais imaginer ici une ia pour traiter les affaires les moins graves et si appel cela passerait par des humains.
Une maison squatter par exemple, une ia pourrait très bien ordonné l'expulsion du squatteur dans la seconde, pas la peine de déranger un juge humain pour ça.

Dans un monde parfait, bien sur la solution serait que l'avocat fasse bien son travail, il faudrait engager plus de juge/magistrat, mais la justice en france c'est un très petit budget qui ne peut être étendue (au détriment d'autre chose sinon) il faut trouver des solutions avec des moyens limité.
et dans ce monde, les petits avocats vont préférer augmenter leurs CA quitte à bâcler le travail que de faire de la qualité. Surtout pour des affaires banals et répétitive (divorce, conflit voisinage, squat...)
Pour les gros cabinet prestigieux, c'est la réputation du cabinet qui est en jeu donc je pense que la qualité primera.
le génie logiciel c'est pareil, on ait des choix pour rester dans le budget, réduction des tests, on bâcle l'optimisation, on supprime certaines fonctionnalités utilisé...etc.

ce n'est qu'une question de temps mais les métiers de comptable, avocat, et même médecin seront tot ou tard plus protégé par les états et ce sera open bar pour les ia. d'ici 10-20ans je pense qu'avoir une ia comptable, une ia avocat et une ia médecin généraliste sera la norme.
Ça répond déjà à un besoin, aux usa celui qui veut pas mettre 500€ dans une consultation médicale ou un avocat utilise déjà chatgpt et se débrouille.
Je connais nombre d'étudiants qui se forme avec chatgpt, le prof ne sert juste qu'a donner des polycopier et surveiller la salle pendant les examens. Beaucoup prefere la qualité d'un cours personnalisé avec chatgpt que un cours magistrale. Un prof qui parle à 30 élèves dans un collège ou 200dans un fac, ca ne sert à rien.
J'ai même déjà vu des facs engorgé en france, un amphi avec le prof et un autre amphi c'est une grosse télé avec le cours en direct. Des étudiants ont même cassé cette télé pour empêcher la moitié de la promo d’accéder aux cours et d'avoir un avantage au concours, seul ceux qui se levait à 5h du mat et faisait la queue devant l'amphi avait une chance.

l'école de mes gosses et payante mais c'est 15 élèves dans la classe avec 2 profs, la oui y'a une value d'avoir un humain. Mais cela a un prix.
prix que peu peuvent/veulent mettre, déjà que les profs en france se plaignent d’être pas assez bien payé.

Il y'a les dur réalités économique qui forceront ces secteurs encore protégé a s'ouvrir à l'ia.
0  2