Des chercheurs ont reproduit une expérience judiciaire initialement menée sur 61 juges fédéraux américains, cette fois-ci avec GPT-5 comme décideur. L'expérience porte sur un litige relatif au choix de la loi applicable dans une affaire hypothétique d'accident automobile. Ils ont constaté que le LLM adhère beaucoup plus souvent à l'issue juridiquement correcte que les juges humains. En fait, le LLM ne commet aucune erreur. Le 7 août 2025, OpenAI a dévoilé la dernière version tant attendue de son chatbot basé sur l'intelligence artificielle (IA), GPT-5. GPT-5 (acronyme de Generative Pre-trained Transformer 5) inclue un modèle rapide et à haut débit, un modèle de raisonnement plus approfondi et un routeur temps réel qui décide du modèle à utiliser en fonction du type de conversation, de sa complexité, des besoins en outils et de l'intention explicite. C'est le premier modèle d'IA « unifié » d'OpenAI (il combine les capacités de « raisonnement » de sa série de modèles o aux possibilités de réponses rapides de sa série GPT).
Selon OpenAI, GPT-5 offre une expertise de niveau doctorat. Présenté comme « plus intelligent, plus rapide et plus utile », Sam Altman, a salué le nouveau modèle de l'entreprise comme marquant le début d'une nouvelle ère pour ChatGPT. Altman a déclaré que le nouveau modèle d'OpenAI souffrirait de moins d'hallucinations (phénomène par lequel les grands modèles de langage inventent des réponses) et serait moins trompeur. Il a notamment affirmé : « Le GPT-5 est le premier à donner vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat. »
Le secteur judiciaire est l'un des domaines qui pourrait être impacté par l'IA. En 2019, l'Estonie a lancé un projet de juge-robot capable de statuer sur des litiges de moins de 7000 euros (environ 8000 dollars). L'IA a été utilisée pour rendre une décision susceptible de recours devant un juge humain. Cette tentative d'associer l'IA et la loi n'est pas la première dans le monde, on recense des cas similaires aux États-Unis et en Grande-Bretagne bien que celui de l'Estonie soit peut-être le premier à conférer un pouvoir décisionnel à un algorithme. Des projets qui questionnent : Une intelligence artificielle peut-elle être un juge équitable dans un tribunal ?
Récemment, une étude s'est penchée sur la question. Les chercheurs ont reproduit une expérience judiciaire initialement menée sur 61 juges fédéraux américains, cette fois-ci avec GPT-5 comme décideur. L'expérience porte sur un litige relatif au choix de la loi applicable dans une affaire hypothétique d'accident automobile, où trois variables sont manipulées : (1) si la doctrine applicable est une règle ou une norme, (2) si le plaignant ou le défendeur est présenté de manière plus sympathique, et (3) le lieu de l'accident, qui influe sur l'issue juridique en vertu des règles de choix de la loi applicable dans différents États. Ils ont constaté que le LLM adhère beaucoup plus souvent à l'issue juridiquement correcte que les juges humains. En fait, le LLM ne commet aucune erreur.
GPT-5 surpasse les juges fédéraux dans une expérience de raisonnement juridique
Les chercheurs ont commencé l'analyse en examinant la proportion de décisions de chaque groupe qui ont respecté la loi. Cela signifie appliquer la doctrine correcte du choix de la loi applicable : dans le Wyoming, la règle lex loci delicti (application de la loi de l'État où l'accident s'est produit) et dans le Dakota du Sud, la norme de la relation significative (application de la loi de l'État où les deux parties étaient domiciliées).
Selon l'hypothèse de Klerman et Spamann, la loi du Dakota du Sud exige que le tribunal choisisse la loi de l'État du domicile commun. Klerman et Spamann ont constaté que les juges humains ne respectaient la loi que dans un peu plus de la moitié des cas, soit à peu près autant qu'un tirage au sort. En revanche, GPT-5 a respecté la loi dans tous les cas. La différence entre les deux groupes en matière de respect de la loi est à la fois importante sur le fond et statistiquement significative.
Ensuite, ils ont divisé les résultats en fonction de chacune des variables manipulées par Klerman et Spamann, en commençant par le forum, c'est-à-dire si le respect de la loi varie en fonction de la règle de choix de la loi applicable de l'État du forum. GPT a respecté la loi de manière plus cohérente que les juges humains dans les deux forums, la différence entre les groupes atteignant une signification statistique dans chacun d'eux.
Tant dans le Wyoming, où s'applique la doctrine fondée sur les règles, que dans le Dakota du Sud, où s'applique la norme, GPT a respecté la loi dans 100 % des cas. La cohérence du respect de la loi par le GPT, quel que soit le forum choisi, diffère considérablement de celle des juges, qui étaient plus enclins à respecter la loi dans le cadre de la règle que dans le cadre de la norme (bien que cette différence ne soit pas statistiquement significative). Le comportement des juges dans cette expérience est conforme à l'idée reçue selon laquelle les juges sont généralement plus contraints par les règles que par les normes. Cependant, même lorsque les juges bénéficient des règles, ils commettent des erreurs,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
