IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche
Pour analyser le contexte dans lequel Claude « hallucine »

Le , par Stéphane le calme

6PARTAGES

5  0 
Les modèles de langage de grande taille (LLM) tels que GPT-4 et GPT-3 ont révolutionné le traitement du langage naturel, offrant des capacités impressionnantes en génération de texte, traduction et compréhension. Cependant, malgré leur puissance, ces modèles peuvent parfois produire des informations incorrectes ou inventées, un phénomène souvent désigné sous le terme « hallucinations ».

L'émergence des grands modèles de langage (LLM) a marqué une étape importante dans le domaine de l'intelligence artificielle, en particulier dans le traitement du langage naturel. Ces modèles, avec leurs vastes bases de connaissances et leur capacité à générer des textes cohérents et pertinents sur le plan contextuel, ont eu un impact considérable sur la recherche, l'industrie et la société.

Cependant, l'un des défis majeurs auxquels ils sont confrontés est le problème de « l'hallucination », où les modèles génèrent des informations plausibles mais factuellement incorrectes ou absurdes. Ce problème a suscité des préoccupations croissantes en matière de sécurité dans la mesure où les LLM sont largement appliqués, ce qui a donné lieu à une littérature de plus en plus abondante pour tenter de le classer, de le comprendre et de l'atténuer.

Des travaux antérieurs ont identifié de multiples sources possibles d'hallucination dans les LLM, de la collecte des données aux aspects de formation et d'inférence. Par exemple, dans l'étude "Survey of Hallucination in Natural Language Generation", les auteurs attribuent l'hallucination dans la génération de langage naturel à la collecte heuristique de données, à la divergence innée, à l'apprentissage imparfait de la représentation, au décodage erroné, au biais d'exposition et au biais de connaissance paramétrique.

Une pléthore de méthodes a été proposée pour atténuer l'hallucination. Par exemple, des mesures centrées sur les faits et des repères ont été proposés pour mesurer et réduire l'hallucination sur des ensembles de données spécifiques. Les méthodes basées sur la recherche renforcent le LLM par des graphes de connaissances ou des bases de données pour aider à corriger les erreurs factuelles dans les résultats des modèles. L'incitation des modèles à raisonner et à vérifier leurs réponses a également été démontrée pour réduire l'hallucination.

Jusqu'à présent, la recherche sur l'hallucination LLM reste largement empirique. Aussi utiles soient-elles, les études empiriques ne peuvent pas répondre à la question fondamentale : peut-on éliminer complètement l'hallucination ? La réponse à cette question est fondamentale car elle indique une limite supérieure possible des capacités des LLM. Cependant, comme il est impossible d'énumérer et de tester empiriquement toutes les données possibles, il est impossible de discuter formellement de cette question sans une définition claire et une analyse formelle de l'hallucination.

L'approche d'Anthropic

L'un des aspects les plus frustrants de l'utilisation d'un grand modèle de langage est sa tendance à inventer des informations, à donner des réponses hallucinées qui ne sont pas étayées par ses données d'apprentissage. D'un point de vue humain, il peut être difficile de comprendre pourquoi ces modèles ne disent pas simplement « je ne sais pas » au lieu d'inventer des absurdités plausibles.

Cette fois-ci, de nouvelles recherches menées par Anthropic révèlent au moins une partie du « circuit » interne du réseau neuronal qui aide un LLM à décider quand tenter de donner une réponse (peut-être hallucinée) plutôt que de refuser une réponse en premier lieu. Bien que la compréhension humaine de ce processus interne de « décision » du LLM soit encore approximative, ce type de recherche pourrait conduire à de meilleures solutions globales pour le problème de la confabulation de l'IA.


Quand une « entité connue » ne l'est pas

Dans un article publié en mai dernier, Anthropic a utilisé un système d'auto-encodeurs épars pour éclairer les groupes de neurones artificiels qui sont activés lorsque Claude LLM rencontre des concepts internes allant du « Golden Gate Bridge » aux « erreurs de programmation » (Anthropic appelle ces groupes des « caractéristiques », comme nous le ferons dans la suite). Les recherches récemment publiées par Anthropic développent ces travaux antérieurs en montrant comment ces caractéristiques peuvent affecter d'autres groupes de neurones qui représentent les « circuits » de décision informatique que Claude suit pour élaborer sa réponse.

Dans deux articles, Anthropic explique en détail comment un examen partiel de certains de ces circuits neuronaux internes permet de mieux comprendre comment Claude « pense » en plusieurs langues, comment il peut être trompé par certaines techniques de jailbreaking, et même si les explications de sa « chaîne de pensée » tant vantée sont exactes. Mais la section décrivant le processus de « reconnaissance d'entités et d'hallucinations » de Claude fournit l'une des explications les plus détaillées d'un problème compliqué que nous ayons vues.

À la base, les grands modèles de langage sont conçus pour prendre une chaîne de texte et prédire le texte qui est susceptible de suivre - une conception qui a conduit certains à se moquer de l'ensemble de l'entreprise en la qualifiant « d'autocomplétion glorifiée ». Cette conception de base est utile lorsque le texte de l'invite correspond étroitement aux types de choses déjà trouvées dans les nombreuses données d'entraînement d'un modèle. Cependant, pour les « faits ou sujets relativement obscurs », cette tendance à toujours compléter l'invite « incite les modèles à deviner des compléments plausibles pour des blocs de texte », écrit Anthropic dans sa nouvelle étude.

Le réglage fin permet d'atténuer ce problème, en guidant le modèle pour qu'il agisse comme un assistant utile et refuse de répondre à une question lorsque les données d'apprentissage correspondantes sont peu nombreuses. Ce processus de réglage fin crée des ensembles distincts de neurones artificiels que les chercheurs peuvent voir s'activer lorsque Claude rencontre le nom d'une « entité connue » (par exemple, « Michael Jordan ») ou un « nom inconnu » (par exemple, « Michael Batkin ») dans une invite.


Un graphique simplifié montrant l'interaction des différentes caractéristiques et des circuits dans les messages sur les stars du sport, vraies ou fausses.

L'activation de la fonction « nom inconnu » parmi les neurones d'un LLM tend à promouvoir un circuit interne « ne peut pas répondre » dans le modèle, écrivent les chercheurs, l'encourageant à fournir une réponse commençant par « Je m'excuse, mais je ne peux pas... » En fait, les chercheurs ont constaté que le circuit « ne peut pas répondre » a tendance à se mettre par défaut en position « on » (« activée ») dans la version « assistant » affinée du modèle de Claude, ce qui rend le modèle réticent à répondre à une question à moins que d'autres caractéristiques actives de son réseau neuronal ne suggèrent qu'il devrait le faire.

C'est ce qui se produit lorsque le modèle rencontre un terme bien connu comme « Michael Jordan » dans une question, activant cette caractéristique « d'entité connue » et entraînant à son tour les neurones du circuit « ne peut pas répondre » à être « inactifs ou plus faiblement actifs », écrivent les chercheurs. Une fois que cela se produit, le modèle peut plonger plus profondément dans son graphique de caractéristiques liées à Michael Jordan pour fournir sa meilleure estimation d'une réponse à une question...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !