La recherche a été publiée dans un article et s'intitulait "Long-form factuality in large language models". Dans cet article, il est question d'une méthode de vérification des faits appelée Search-Augmented Factuality Evaluator (SAFE). Il a été constaté que SAFE décompose chaque fait d'un document individuellement et le vérifie ensuite à l'aide d'une recherche sur Google.
L'un des auteurs de l'étude explique que SAFE utilise de grands modèles de langage (LLM) pour décomposer correctement chaque fait et vérifier d'abord chaque fait lui-même en utilisant son processus de raisonnement en plusieurs étapes, puis en faisant correspondre les faits avec les résultats de la recherche sur Google. Pour déterminer si SAFE peut être utilisé à la place des humains en termes de vérification des faits, les chercheurs ont testé 16 000 faits avec DeepMind et des humains. Ils ont constaté que SAFE correspondait aux humains dans 72 % des cas. Il y a également eu 100 désaccords sur des faits entre les humains et SAFE, et SAFE s'est avéré correct dans 76 % des cas.
L'article affirme que ce LLM peut acquérir des pouvoirs surhumains, mais de nombreux chercheurs ne s'entendent pas sur la signification du terme "surhumain". Garcy Marcus, chercheur dans le domaine de l'IA, a déclaré qu'il avait été troublé par le terme "surhumain". Selon lui, les chercheurs survalorisent le modèle et cette formulation ne correspond pas au modèle. Il a également ajouté que les chercheurs voulaient dire que SAFE est meilleur que les vérificateurs de faits humains sous-payés. Pour être réellement qualifié de surhumain, SAFE doit rivaliser avec de nombreux vérificateurs de données humains professionnels, car cela est important pour obtenir des résultats corrects.
Les chercheurs affirment que SAFE est 20 fois moins cher que les vérificateurs de faits humains. SAFE a également été utilisé sur de nombreux autres modèles tels que ChatGPT, Gemini, Claude, etc. afin de vérifier si ces modèles comportent des erreurs factuelles. Les résultats ont montré que les modèles les plus importants comportaient moins d'erreurs factuelles. Mais certains des meilleurs modèles ont également généré de fausses affirmations, ce qui montre qu'on ne devrait pas trop se fier à ces modèles pour obtenir des informations factuelles. SAFE a permis d'identifier ces fausses affirmations.
Le code SAFE a été ouvert sur GitHub. Les autres chercheurs peuvent utiliser ce code pour vérifier leurs travaux et trouver les erreurs qu'ils ont commises sur certains faits. SAFE a encore un long chemin à parcourir et il lui reste encore beaucoup de travail à faire pour rivaliser avec les humains.
Présentation de SAFE
L'étude a examiné comment évaluer de manière approfondie les faits de forme longue dans les grands modèles de langage. Cette méthode, appellée SAFE, utilise un grand modèle de langage activé par la recherche pour diviser une réponse longue en faits individuels, réviser les faits individuels pour qu'ils soient autonomes, déterminer la pertinence de chaque fait individuel pour répondre à l'invite, et vérifier la factualité de chaque fait pertinent en lançant des requêtes Google Search.
L'étude a démontré que SAFE atteint des performances remarquable en étant en accord avec 72 % des annotations humaines et en gagnant 76 % des exemples sur un ensemble de 100 cas de désaccord échantillonnés de manière aléatoire. Il a été également montré que SAFE est 20 fois moins cher que les annotateurs humains issus du crowdsourcing. De plus, comparé à treize modèles issus de quatre familles de modèles (Gemini, GPT, Claude, PaLM-2) sur LongFact et il a été constaté que les modèles de langage plus importants présentaient généralement une meilleure factualité sur le long terme.
Les recherches futures dans ce domaine peuvent explorer un large éventail de directions. Tout d'abord, l'une des principales pistes à explorer est la manière d'améliorer la factualité de la forme longue d'un modèle linguistique par le biais d'un meilleur pré-entraînement/réglage ou en l'enrichissant par l'utilisation d'outils externes. Il existe également des domaines d'amélioration pour SAFE en termes de dépendance à l'égard des agents de modèles linguistiques basés sur la recherche.
En outre, l'étude porte sur la factualité (c'est-à-dire l'exactitude des faits par rapport à la connaissance du monde), et il n'est donc pas encore clair comment mesurer de manière fiable l'hallucination (c'est-à-dire l'exactitude des faits par rapport à la connaissance interne d'un modèle) dans des contextes de longue durée. Grâce au benchmark, l'étude veut démontrer comment des méthodes fiables d'obtention d'ensembles de données, d'évaluation de modèles et d'agrégation de métriques peuvent améliorer de manière significative la compréhension des capacités des modèles dans des contextes de longue durée.
Long-form factuality in large language models
Résumé
Les grands modèles de langage (LLM) génèrent souvent un contenu qui contient des erreurs factuelles lorsqu'ils répondent à des invites de recherche de faits sur des sujets ouverts. Pour évaluer la factualité d'un modèle dans des domaines ouverts, nous utilisons d'abord GPT-4 pour générer LongFact (des faits de forme longue), un ensemble de questions comprenant des milliers de questions couvrant 38 sujets. Nous proposons ensuite que les agents LLM soient utilisés comme évaluateurs automatisés des faits de forme longue par le biais d'une méthode que nous appelons Search-Augmented Factuality Evaluator (SAFE).
SAFE utilise un LLM pour décomposer une réponse longue en un ensemble de faits individuels et pour évaluer l'exactitude de chaque fait à l'aide d'un processus de raisonnement en plusieurs étapes comprenant l'envoi de requêtes de recherche à Google Search et la détermination de l'appui d'un fait par les résultats de la recherche. En outre, nous proposons d'étendre le score F1 en tant que mesure agrégée des faits de forme longue . Pour ce faire, nous équilibrons le pourcentage de faits étayés dans une réponse (précision) avec le pourcentage de faits fournis par rapport à un hyperparamètre représentant la longueur de réponse préférée de l'utilisateur (rappel).
Empiriquement, nous démontrons que les agents LLM peuvent atteindre des performances d'évaluation surhumaines - sur un ensemble de ∼16 000 faits individuels, SAFE est en accord avec les annotateurs humains 72 ;% du temps, et sur un sous-ensemble aléatoire de 100 cas de désaccord, SAFE gagne 76 ;% du temps. Dans le même temps, SAFE est plus de 20 fois moins cher que les annotateurs humains. Nous comparons également treize modèles de langage sur LongFact dans quatre familles de modèles (Gemini, GPT, Claude et PaLM-2), et nous constatons que les modèles de langage de grande taille permettent généralement d'obtenir une meilleure factualité sur le long terme. LongFact, SAFE et l'ensemble du code expérimental sont disponibles.
Résumé
Les grands modèles de langage (LLM) génèrent souvent un contenu qui contient des erreurs factuelles lorsqu'ils répondent à des invites de recherche de faits sur des sujets ouverts. Pour évaluer la factualité d'un modèle dans des domaines ouverts, nous utilisons d'abord GPT-4 pour générer LongFact (des faits de forme longue), un ensemble de questions comprenant des milliers de questions couvrant 38 sujets. Nous proposons ensuite que les agents LLM soient utilisés comme évaluateurs automatisés des faits de forme longue par le biais d'une méthode que nous appelons Search-Augmented Factuality Evaluator (SAFE).
SAFE utilise un LLM pour décomposer une réponse longue en un ensemble de faits individuels et pour évaluer l'exactitude de chaque fait à l'aide d'un processus de raisonnement en plusieurs étapes comprenant l'envoi de requêtes de recherche à Google Search et la détermination de l'appui d'un fait par les résultats de la recherche. En outre, nous proposons d'étendre le score F1 en tant que mesure agrégée des faits de forme longue . Pour ce faire, nous équilibrons le pourcentage de faits étayés dans une réponse (précision) avec le pourcentage de faits fournis par rapport à un hyperparamètre représentant la longueur de réponse préférée de l'utilisateur (rappel).
Empiriquement, nous démontrons que les agents LLM peuvent atteindre des performances d'évaluation surhumaines - sur un ensemble de ∼16 000 faits individuels, SAFE est en accord avec les annotateurs humains 72 ;% du temps, et sur un sous-ensemble aléatoire de 100 cas de désaccord, SAFE gagne 76 ;% du temps. Dans le même temps, SAFE est plus de 20 fois moins cher que les annotateurs humains. Nous comparons également treize modèles de langage sur LongFact dans quatre familles de modèles (Gemini, GPT, Claude et PaLM-2), et nous constatons que les modèles de langage de grande taille permettent généralement d'obtenir une meilleure factualité sur le long terme. LongFact, SAFE et l'ensemble du code expérimental sont disponibles.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google DeepMind vient de publier une liste de niveaux d'AGI et définir des niveaux de performance. Elle suggère des principes tels que se focaliser sur les capacités plutôt que sur les mécanismes
L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM
Les grands modèles de langage sont en état d'ébriété, selon Mattsi Jansky, développeur de logiciels, il présente l'envers du decor des LLM, dans un billet de blog