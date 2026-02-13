Le 7 août 2025, OpenAI a dévoilé la dernière version tant attendue de son chatbot basé sur l'intelligence artificielle (IA), GPT-5. GPT-5 (acronyme de Generative Pre-trained Transformer 5) inclue un modèle rapide et à haut débit, un modèle de raisonnement plus approfondi et un routeur temps réel qui décide du modèle à utiliser en fonction du type de conversation, de sa complexité, des besoins en outils et de l'intention explicite. C'est le premier modèle d'IA « unifié » d'OpenAI (il combine les capacités de « raisonnement » de sa série de modèles o aux possibilités de réponses rapides de sa série GPT).
Selon OpenAI, GPT-5 offre une expertise de niveau doctorat. Présenté comme « plus intelligent, plus rapide et plus utile », Sam Altman, a salué le nouveau modèle de l'entreprise comme marquant le début d'une nouvelle ère pour ChatGPT. Altman a déclaré que le nouveau modèle d'OpenAI souffrirait de moins d'hallucinations (phénomène par lequel les grands modèles de langage inventent des réponses) et serait moins trompeur. Il a notamment affirmé : « Le GPT-5 est le premier à donner vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat. »
Le secteur judiciaire est l'un des domaines qui pourrait être impacté par l'IA. En 2019, l'Estonie a lancé un projet de juge-robot capable de statuer sur des litiges de moins de 7000 euros (environ 8000 dollars). L'IA a été utilisée pour rendre une décision susceptible de recours devant un juge humain. Cette tentative d'associer l'IA et la loi n'est pas la première dans le monde, on recense des cas similaires aux États-Unis et en Grande-Bretagne bien que celui de l'Estonie soit peut-être le premier à conférer un pouvoir décisionnel à un algorithme. Des projets qui questionnent : Une intelligence artificielle peut-elle être un juge équitable dans un tribunal ?
Récemment, une étude s'est penchée sur la question. Les chercheurs ont reproduit une expérience judiciaire initialement menée sur 61 juges fédéraux américains, cette fois-ci avec GPT-5 comme décideur. L'expérience porte sur un litige relatif au choix de la loi applicable dans une affaire hypothétique d'accident automobile, où trois variables sont manipulées : (1) si la doctrine applicable est une règle ou une norme, (2) si le plaignant ou le défendeur est présenté de manière plus sympathique, et (3) le lieu de l'accident, qui influe sur l'issue juridique en vertu des règles de choix de la loi applicable dans différents États. Ils ont constaté que le LLM adhère beaucoup plus souvent à l'issue juridiquement correcte que les juges humains. En fait, le LLM ne commet aucune erreur.
GPT-5 surpasse les juges fédéraux dans une expérience de raisonnement juridique
Les chercheurs ont commencé l'analyse en examinant la proportion de décisions de chaque groupe qui ont respecté la loi. Cela signifie appliquer la doctrine correcte du choix de la loi applicable : dans le Wyoming, la règle lex loci delicti (application de la loi de l'État où l'accident s'est produit) et dans le Dakota du Sud, la norme de la relation significative (application de la loi de l'État où les deux parties étaient domiciliées).
Selon l'hypothèse de Klerman et Spamann, la loi du Dakota du Sud exige que le tribunal choisisse la loi de l'État du domicile commun. Klerman et Spamann ont constaté que les juges humains ne respectaient la loi que dans un peu plus de la moitié des cas, soit à peu près autant qu'un tirage au sort. En revanche, GPT-5 a respecté la loi dans tous les cas. La différence entre les deux groupes en matière de respect de la loi est à la fois importante sur le fond et statistiquement significative.
Ensuite, ils ont divisé les résultats en fonction de chacune des variables manipulées par Klerman et Spamann, en commençant par le forum, c'est-à-dire si le respect de la loi varie en fonction de la règle de choix de la loi applicable de l'État du forum. GPT a respecté la loi de manière plus cohérente que les juges humains dans les deux forums, la différence entre les groupes atteignant une signification statistique dans chacun d'eux.
Tant dans le Wyoming, où s'applique la doctrine fondée sur les règles, que dans le Dakota du Sud, où s'applique la norme, GPT a respecté la loi dans 100 % des cas. La cohérence du respect de la loi par le GPT, quel que soit le forum choisi, diffère considérablement de celle des juges, qui étaient plus enclins à respecter la loi dans le cadre de la règle que dans le cadre de la norme (bien que cette différence ne soit pas statistiquement significative). Le comportement des juges dans cette expérience est conforme à l'idée reçue selon laquelle les juges sont généralement plus contraints par les règles que par les normes. Cependant, même lorsque les juges bénéficient des règles, ils commettent des erreurs, contrairement au GPT.
Ils ont examiné également la proportion de décisions qui ont respecté la loi en fonction du lieu de l'accident et du domicile commun. GPT respecte la loi davantage que les juges, quel que soit le lieu de l'accident, à un niveau statistiquement significatif. En outre, les juges étaient plus enclins à respecter la loi si l'accident avait eu lieu au Kansas plutôt qu'au Nebraska, bien que la différence ne soit pas statistiquement significative.
La raison pour laquelle les juges seraient plus enclins à respecter la loi si l'accident s'était produit au Kansas plutôt qu'au Nebraska n'est pas évidente au premier abord. Mais ce résultat est probablement dû à un problème dans la conception de l'expérience. Comme le reconnaissent Klerman et Spamann, la variable de la forme juridique (règle ou norme) est confondue avec la variable du contenu juridique (une préférence inhérente pour la loi du lieu de l'accident ou du domicile commun ; une préférence inhérente pour la loi qui conduit au meilleur résultat).
Enfin, ils ont examiné la proportion de décisions respectant la loi lorsque le défendeur était sympathique par rapport à celle où le plaignant l'était. Ils n'ont constaté aucun effet statistiquement significatif pour le GPT, ce qui reflète le résultat obtenu pour les juges humains.
Selon la proportion de décisions respectant la loi pour les trois variables simultanément (c'est-à-dire pour les huit conditions), dans toutes les conditions, le LLM suit la loi au moins autant, et généralement plus, que les juges. Dans deux conditions WY-KS-D (colonne 5) et WY-NE-P (colonne 8) les proportions sont identiques, car GPT et les juges suivent la loi dans 100 % des cas. Hormis ces deux conditions, le taux de conformité juridique du GPT dépasse systématiquement celui des juges. Les juges ne respectent pas beaucoup la loi, mais ils ne sont pas non plus influencés par la sympathie qu'ils peuvent avoir pour une partie. Le GPT respecte parfaitement la loi, bien qu'il ne soit pas non plus influencé par la sympathie qu'il peut avoir pour une partie à un niveau statistiquement significatif.
Discussion
Dans une précédente étude, les chercheurs ont constaté que GPT était plus formaliste que les juges dans le sens où il suivait systématiquement les précédents pertinents et n'était pas influencé par des facteurs non juridiques, à savoir la mesure dans laquelle le défendeur était présenté de manière sympathique ou antipathique. Les décisions du GPT étaient similaires à celles des étudiants qui ont participé à une deuxième expérience.
Ce schéma a soulevé plusieurs questions. Faut-il considérer les juges humains comme la référence pour évaluer les LLM ou la référence devrait-elle être la conformité formelle à la loi ? Le fait que les étudiants se conforment davantage à la loi que les juges professionnels soulève la possibilité que, pour rendre des jugements socialement souhaitables, les juges doivent s'écarter des règles formelles afin d'éviter les injustices ou les mauvaises pratiques politiques, un élément essentiel de la théorie de la réalité juridique.
Après des efforts d'ingénierie des invites aient échoué à inciter GPT à statuer sur des affaires comme les juges professionnels plutôt que comme les étudiants, les chercheurs ont émis l'hypothèse qu'il était peut-être impossible de concevoir des LLM capables d'agir comme des juges humains. Premièrement, les LLM sont entraînés à partir de textes, y compris des avis judiciaires, et les juges ne fournissent pas toujours les véritables raisons de leurs décisions dans leurs avis, tandis que de nombreux textes, y compris les manuels scolaires, par exemple, fournissent des descriptions idéalisées de l'état de droit. Dans cette description idéalisée, les juges suivent la loi ; ils ne la font pas.
Deuxièmement, les LLM sont soumis à des garde-fous imposés par leurs concepteurs, y compris ce qui semble être un garde-fou de l'État de droit, et il n'est pas certain que des garde-fous puissent être mis en place pour permettre aux juges IA de prendre en compte des facteurs non juridiques comme le font apparemment les juges humains.
Troisièmement, nous vivons dans une société...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.