IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara
Qui suggère que les LLM de Google sont les moins fiables

Le , par Stéphane le calme

278PARTAGES

7  0 
Les modèles de langage à grande échelle (LLM) sont capables de générer du texte sur n’importe quel sujet, mais ils sont aussi susceptibles d’introduire des informations fausses ou inventées, appelées hallucinations. Pour évaluer la performance des LLM à éviter les hallucinations, une entreprise nommée Vectara a créé un modèle d’évaluation des hallucinations et un classement public des LLM les plus fiables.

Passez suffisamment de temps avec ChatGPT et d'autres chatbots d'intelligence artificielle et il ne leur faudra pas longtemps pour débiter des mensonges.

Décrit comme une hallucination, une confabulation ou simplement une invention, c'est maintenant un problème pour chaque entreprise, organisation et lycéen essayant d'obtenir d'un système d'IA générative de la documentation pour un travail donné. Certains l'utilisent pour des tâches pouvant avoir des conséquences importantes, de la psychothérapie à la recherche et à la rédaction de mémoires juridiques.

Les hallucinations sont le résultat du fonctionnement de ChatGPT, qui consiste à prédire des chaînes de mots qui correspondent le mieux à la requête de l’utilisateur, sans tenir compte de la logique ou des incohérences factuelles. En d’autres termes, l’IA peut parfois dérailler en essayant de satisfaire l’utilisateur. Par exemple, ChatGPT peut affirmer que la capitale de la France est Berlin, ou que le président des États-Unis est Donald Trump, sans vérifier la véracité de ces informations.

Ce problème n’est pas propre à ChatGPT, mais affecte tous les modèles de langage de grande taille (LLM), qui sont entraînés sur d’énormes quantités de données textuelles provenant du web. Ces données peuvent être incomplètes, biaisées, obsolètes ou erronées, ce qui limite la fiabilité des LLM. De plus, les LLM ne comprennent pas vraiment le sens des mots qu’ils produisent, mais se basent sur des statistiques et des probabilités pour générer du texte.

« Je ne pense pas qu'il existe aujourd'hui un modèle qui ne souffre pas d'hallucinations », a déclaré Daniela Amodei, co-fondatrice et présidente d'Anthropic, fabricant du chatbot Claude 2. « Ils sont vraiment conçus en quelque sorte pour prédire le mot suivant », a continué Amodei. « Et donc il y aura un certain rythme auquel le modèle le fera de manière inexacte ».

Mais quel LLM en souffre le plus ?

C'est la question à laquelle a tenté de répondre Vectara, qui a créé un modèle d’évaluation des hallucinations et établit un classement public des LLM les plus fiable.

Le modèle d’évaluation des hallucinations de Vectara est basé sur des données provenant de la recherche sur la cohérence factuelle des modèles de résumé automatique. Il s’agit d’un modèle compétitif avec les meilleurs modèles de l’état de l’art, qui peut détecter les hallucinations dans les sorties des LLM, en les comparant avec le document source. Le modèle est disponible en open source sur hugging face.

Au sujet de la méthodologie, Vectara explique :

Ce modèle a été formé à l'aide de la classe SentenceTransformers Cross-Encoder. Le modèle génère une probabilité de 0 à 1, 0 étant une hallucination et 1 étant factuellement cohérent. Les prédictions peuvent être seuillées à 0,5 pour prédire si un document est cohérent avec sa source.

Données d'entraînement

Ce modèle est basé sur Microsoft/Deberta-v3-base et est initialement formé sur les données NLI pour déterminer l'implication textuelle, avant d'être affiné davantage sur des ensembles de données de synthèse avec des échantillons annotés pour une cohérence factuelle, notamment FEVER, Vitamin C et PAWS.

Pour établir le classement, Vectara a envoyé 1000 documents courts à chaque LLM via leurs API publiques et leur a demandé de résumer chaque document, en utilisant uniquement les faits présentés dans le document. Parmi ces 1000 documents, seuls 831 documents ont été résumés par tous les modèles, les documents restants ayant été rejetés par au moins un modèle en raison de restrictions de contenu. En utilisant ces 831 documents, Vectara a ensuite calculé le taux de précision (pas d’hallucinations) et le taux d’hallucination (100 - précision) pour chaque modèle. Le taux auquel chaque modèle refuse de répondre à la consigne est détaillé dans la colonne “Taux de réponse”. Aucun des contenus envoyés aux modèles ne contenait de contenu illicite ou “non adapté au travail”, mais la présence de mots déclencheurs était suffisante pour activer certains des filtres de contenu. Les documents provenaient principalement du corpus CNN / Daily Mail.

Pourquoi un résumé d'un document plutôt qu'un test sur des exactitudes factuelles...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !