Les grands systèmes de modèles de langage (LLM), tels que ChatGPT ou Gemini, peuvent présenter des capacités impressionnantes de raisonnement et de réponse aux questions, mais ils "hallucinent" souvent des résultats erronés et des réponses non fondées. Le fait de répondre de manière non fiable ou sans les informations nécessaires empêche l'adoption dans divers domaines, avec des problèmes tels que la fabrication de précédents juridiques ou de faits erronés dans des articles de presse, voire un risque pour la vie humaine dans des domaines médicaux tels que la radiologie.
L'encouragement à la véracité par la supervision ou le renforcement n'a connu qu'un succès partiel. Les chercheurs ont besoin d'une méthode générale pour détecter les hallucinations dans les LLM qui fonctionne même avec des questions nouvelles et inédites auxquelles les humains peuvent ne pas connaître la réponse.
Dans leur étude, les chercheurs du département d'Informatique de l'Université d'Oxford ont développé de nouvelles méthodes fondées sur les statistiques, proposant des estimateurs d'incertitude basés sur l'entropie pour les LLM afin de détecter un sous-ensemble d'hallucinations - les confabulations - qui sont des générations arbitraires et incorrectes. Leur méthode tient compte du fait qu'une idée peut être exprimée de plusieurs façons en calculant l'incertitude au niveau du sens plutôt qu'au niveau de séquences spécifiques de mots. Selon les auteurs, cette méthode fonctionne pour tous les ensembles de données et toutes les tâches sans connaissance a priori de la tâche, ne nécessite pas de données spécifiques à la tâche et se généralise de manière robuste à de nouvelles tâches qui n'ont pas été vues auparavant. En détectant quand une invite est susceptible de produire une confabulation, cette méthode aiderait les utilisateurs à comprendre quand ils doivent être plus prudents avec les LLM et ouvre de nouvelles possibilités d'utilisation des LLM qui sont autrement empêchées par leur manque de fiabilité.
Les auteurs expliquent :
Notre approche probabiliste, qui tient compte de l'équivalence sémantique, détecte une catégorie importante d'hallucinations : celles qui sont causées par un manque de connaissance du LLM. Ces hallucinations représentent une part importante des échecs actuels et continueront à se produire même si les capacités des modèles augmentent, car les situations et les cas que les humains ne peuvent pas superviser de manière fiable persisteront. Les confabulations sont un mode d'échec particulièrement remarquable pour la réponse aux questions, mais elles apparaissent également dans d'autres domaines. L'entropie sémantique ne nécessite aucune connaissance préalable du domaine et nous nous attendons à ce que les adaptations algorithmiques à d'autres problèmes permettent des avancées similaires, par exemple dans le domaine du résumé abstractif. En outre, des extensions à d'autres variantes d'entrée telles que la reformulation ou les scénarios contrefactuels permettraient à une méthode similaire d'agir comme une forme de contre-interrogatoire pour un contrôle évolutif par le biais d'un débat.
D'après les scientifiques de l'Université d'Oxford, le succès de l'entropie sémantique dans la détection des erreurs suggère que les LLM sont encore meilleurs pour "savoir ce qu'ils ne savent pas" - ils ne savent tout simplement pas qu'ils savent ce qu'ils ne savent pas. Leur méthode n'aborde pas directement les situations dans lesquelles les LLM se trompent en toute confiance parce qu'ils ont été formés avec des objectifs qui produisent systématiquement un comportement dangereux, provoquent des erreurs de raisonnement systématiques ou induisent systématiquement l'utilisateur en erreur. « Ces situations représentent des mécanismes sous-jacents différents - malgré des "symptômes" similaires - et elles doivent être traitées séparément », précisent les chercheurs.
Un aspect passionnant de leur approche est la façon dont elle utilise les méthodes classiques d'apprentissage automatique probabiliste et les adapte aux propriétés uniques des LLM modernes et de la génération de langage de forme libre. « Nous espérons inspirer un échange fructueux de méthodes bien étudiées et de nouveaux problèmes émergents en soulignant l'importance de la signification lors de l'examen des problèmes d'apprentissage automatique basés sur le langage. », soulignent les auteurs.
Source : "Detecting hallucinations in large language models using semantic entropy" (étude de l'Université d'Oxford)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les résultats de cette étude menée par l'université d'Oxford crédibles ou pertinents ?
Voir aussi :
Les experts techniques commencent à douter que les « hallucinations » de ChatGPT disparaîtront un jour : « Ce n'est pas réparable ». Pour eux, les LLM vont continuer d'inventer des faits
LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables
L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM