
Les outils d'intelligence artificielle (IA) transforment rapidement la pratique du droit. Près des trois quarts des avocats prévoient d'utiliser l'IA générative pour leur travail, qu'il s'agisse de passer au crible des montagnes de jurisprudence, de rédiger des contrats, d'examiner des documents ou de rédiger des mémorandums juridiques. Mais ces outils sont-ils suffisamment fiables pour être utilisés dans le monde réel ?
Les grands modèles de langage ont une tendance documentée à "halluciner", ou à inventer de fausses informations. Dans un cas très médiatisé, un avocat new-yorkais a été sanctionné pour avoir cité des cas fictifs inventés par ChatGPT dans un mémoire juridique ; de nombreux cas similaires ont été signalés depuis.
Par ailleurs, une précédente étude sur les chatbots à usage général a révélé qu'ils hallucinaient entre 58 % et 82 % du temps sur des questions juridiques, ce qui met en évidence les risques liés à l'intégration de l'IA dans la pratique juridique. Dans son rapport annuel de 2023 sur le pouvoir judiciaire, le juge en chef Roberts en a pris note et a mis en garde les avocats contre les hallucinations.
Dans tous les domaines de l'industrie, la génération augmentée par récupération (RAG) est considérée et promue comme la solution pour réduire les hallucinations dans des contextes spécifiques à un domaine. S'appuyant sur la RAG, les principaux services de recherche juridique ont mis sur le marché des produits de recherche juridique alimentés par l'IA qui, selon eux, "évitent" les hallucinations et garantissent des citations juridiques "exemptes d'hallucinations".
Les systèmes RAG promettent de fournir des informations juridiques plus précises et plus fiables en intégrant un modèle linguistique à une base de données de documents juridiques. Cependant, les fournisseurs n'ont pas fourni de preuves tangibles de ces affirmations ni même défini précisément le terme "hallucination", ce qui rend difficile l'évaluation de leur fiabilité dans le monde réel.
Les outils de recherche juridique pilotés par l'IA hallucinent toujours
Dans une nouvelle étude réalisée par le Stanford RegLab et des chercheurs de l'HAI, des chercheurs ont mis à l'épreuve les affirmations de deux fournisseurs, LexisNexis (créateur de Lexis+ AI) et Thomson Reuters (créateur de Westlaw AI-Assisted Research et de Ask Practical Law AI)). L'étude montre que leurs outils réduisent effectivement les erreurs par rapport aux modèles d'IA à usage général tels que GPT-4.
Il s'agit d'une amélioration substantielle et l'étude documente des cas où ces outils fournissent une recherche juridique solide et détaillée. Cependant, même ces outils d'IA juridique sur mesure continuent de produire des hallucinations dans des proportions alarmantes : les systèmes d'IA Lexis+ et Ask Practical Law ont produit des informations incorrectes dans plus de 17 % des cas, tandis que le système AI-Assisted Research de Westlaw a produit des hallucinations dans plus de 34 % des cas.
Les chercheurs partagent leurs méthodologies lors de l'étude :
Pour réaliser notre étude, nous avons construit manuellement un ensemble de données préenregistrées de plus de 200 requêtes juridiques ouvertes, que nous avons conçues pour sonder divers aspects de la performance de ces systèmes.
De manière générale, nous avons étudié (1) les questions de recherche générale (questions sur la doctrine, la jurisprudence ou l'examen du barreau) ; (2) les questions spécifiques à une juridiction ou à une période (questions sur les divisions de circuits et les changements récents dans le droit) ; (3) les questions sur les fausses prémisses (questions qui imitent un utilisateur ayant une compréhension erronée du droit) ; et (4) les questions sur le rappel des faits (questions sur des faits simples et objectifs qui ne nécessitent aucune interprétation juridique). Ces questions sont conçues pour refléter un large éventail de types de requêtes et pour constituer un ensemble de données réelles stimulantes sur les types de requêtes pour lesquelles la recherche juridique peut être la plus nécessaire.
Étant donné l'importance cruciale des sources faisant autorité dans la recherche et la rédaction juridiques, le deuxième type d'hallucination peut être encore plus pernicieux que l'invention pure et simple d'affaires juridiques. Une citation peut être "sans hallucination" dans le sens le plus étroit où la citation existe, mais ce n'est pas la seule chose qui compte.
La promesse principale de l'IA juridique est qu'elle peut rationaliser le processus fastidieux d'identification des sources juridiques pertinentes. Si un outil fournit des sources qui semblent faire autorité mais qui sont en réalité non pertinentes ou contradictoires, les utilisateurs pourraient être induits en erreur. Ils pourraient accorder une confiance excessive aux résultats de l'outil, ce qui pourrait conduire à des jugements et conclusions juridiques erronés.
La génération augmentée par récupération (RAG) n'est pas une panacée
Ces nouveaux outils d'IA juridique utilisent la génération augmentée par récupération (RAG) pour produire leurs résultats, une méthode que beaucoup vantent comme une solution potentielle au problème de l'hallucination.
En théorie, la RAG permet à un système de récupérer d'abord le matériel source pertinent et de l'utiliser ensuite pour générer la réponse correcte. En pratique, cependant, l'étude montre que même les systèmes RAG ne sont pas exempts d'hallucinations.
Exemple d'hallucinations
Les chercheurs identifient plusieurs défis qui sont particulièrement propres aux systèmes d'IA juridique basés sur la RAG et qui provoquent des hallucinations :
Tout d'abord, la recherche juridique est difficile. Comme tout avocat le sait, trouver l'autorité appropriée (ou la meilleure) n'est pas une tâche facile. Contrairement à d'autres domaines, le droit n'est pas entièrement composé de faits vérifiables - au lieu de cela, le droit est construit au fil du temps par des juges qui rédigent des avis.
Il est donc difficile d'identifier l'ensemble des documents qui répondent définitivement à une requête, et il arrive que des hallucinations se produisent pour la simple raison que le mécanisme de recherche du système échoue.
Deuxièmement, même lorsque l'extraction a lieu, le document extrait peut être une autorité inapplicable. Dans le système juridique américain, les règles et les précédents diffèrent d'une juridiction à l'autre et d'une période à l'autre ; les documents qui pourraient être pertinents à première vue en raison de leur similitude sémantique avec une requête peuvent en fait être inapplicables pour des raisons idiosyncrasiques propres à la loi.
Ainsi, nous observons également des hallucinations lorsque ces systèmes de RAG ne parviennent pas à identifier l'autorité réellement contraignante. Ceci est particulièrement problématique car les domaines où le droit est en évolution sont précisément ceux où la recherche juridique est la plus importante.
Un système, par exemple, a incorrectement récité la norme du « fardeau indu » pour les restrictions à l'avortement comme une bonne loi, qui a été renversée dans l'affaire Dobbs.
Troisièmement, la flagornerie - la tendance de l'IA à approuver les hypothèses incorrectes de l'utilisateur - présente également des risques uniques dans le domaine juridique.
Un système, par exemple, a naïvement accepté la prémisse de la question selon laquelle la juge Ginsburg était dissidente dans l'affaire Obergefell, qui a établi le droit au mariage homosexuel, et a répondu qu'elle l'était en raison de ses opinions sur le droit d'auteur international. (La juge Ginsburg n'a pas été dissidente dans l'affaire Obergefell et, non, l'affaire n'avait rien à voir avec le droit d'auteur).
Malgré cette réponse, les résultats sont optimistes. Nos tests ont montré que les deux systèmes naviguaient généralement de manière efficace dans les requêtes basées sur des prémisses erronées.
Mais lorsque ces systèmes sont d'accord avec les affirmations erronées des utilisateurs, les conséquences peuvent être graves, en particulier pour ceux qui espèrent utiliser ces outils afin d'améliorer l'accès à la justice pour les plaideurs autonomes et ceux qui ne disposent pas de ressources suffisantes.
Processus de la RAG
L'intégration responsable de l'IA dans le droit exige de la transparence
En fin de compte, ces résultats soulignent la nécessité d'une évaluation comparative rigoureuse et transparente des outils juridiques d'IA. Contrairement à d'autres domaines, l'utilisation de l'IA en droit reste...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.