IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Starling-7B : un nouveau grand modèle de langage (LLM) open source, presque aussi performant que GPT-4
Selon une étude de l'Université de Californie

Le , par Anthony

35PARTAGES

6  0 
Starling-7B : un nouveau grand modèle de langage (LLM) open source, presque aussi performant que GPT-4, selon une étude de l'Université de Californie

Starling-7B est un grand modèle de langage (LLM) ouvert, entraîné avec l'apprentissage par renforcement à partir du feedback via l'IA (RLAIF). Le modèle exploite la puissance de Nectar, un nouveau jeu de données de classement étiqueté GPT-4, ainsi que d'un nouveau pipeline d'apprentissage par récompense et d'ajustement des politiques. Starling-7B-alpha a obtenu un score de 8,09 dans MT Bench avec GPT-4 comme juge, surpassant tous les modèles existants à ce jour sur MT-Bench, à l'exception de GPT-4 et GPT-4 Turbo d'OpenAI. Le jeu de données de classement Nectar, le modèle de récompense Starling-RM-7B-alpha et le modèle de langage Starling-LM-7B-alpha sont publiés sur HuggingFace, ainsi qu'une démo en ligne dans LMSYS Chatbot Arena.


Vue d'ensemble

Le réglage fin supervisé (SFT) a démontré une efficacité remarquable dans le développement de systèmes de chatbot à partir de modèles de langage, en particulier lorsqu'il s'agit d'exploiter des données de haute qualité distillées à partir de ChatGPT/GPT-4 (les exemples incluent Alpaca, Vicuna, OpenHermes 2.5, et Openchat 3.5). Cependant, la question de savoir dans quelle mesure l'apprentissage par renforcement (RL) à partir du feedback humain (RLHF) ou du feedback via l'IA (RLAIF) peut améliorer les modèles lors de la mise à l'échelle de données de préférences de haute qualité reste ouverte. Des projets antérieurs de la communauté open-source, tels que Zephyra-7B, Neural-Chat-7B et Tulu-2-DPO-70B, ont utilisé l'optimisation directe des préférences (DPO), mais leurs performances dans MT Bench (et certaines dans Chatbot Arena), comparées aux principaux modèles SFT comme OpenHermes 2.5 et Openchat 3.5, n'ont pas pleinement mis en évidence le potentiel du RLHF.

Pour faciliter une recherche plus approfondie sur la RLHF, il est essentiel de disposer d'un ensemble de données de classement de haute qualité spécifiquement pour le chat. Nectar est un ensemble de données de classement étiqueté GPT-4 composé de 183 000 invites de chat. Chaque invite comprend 7 réponses distillées à partir de différents modèles tels que GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct, Llama2-7B, ce qui donne un total de 3,8 millions de comparaisons par paires. Des efforts considérables ont été déployés pour atténuer les biais de position lorsque GPT-4 a été sollicité pour établir des classements, dont les détails sont exposés dans la section ci-dessous consacrée à l'ensemble de données.

En outre, les modèles de récompense open-source sont très rares. Cette lacune a été comblée par la publication du modèle de récompense Starling-RM-7B-alpha, entraîné avec une perte K-wise spécifique sur l'ensemble de données Nectar.

Enfin, le modèle linguistique d'Openchat 3.5 a été affiné à l'aide du modèle de récompense entraîné. Cela a permis d'augmenter le score MT-Bench de 7,81 à 8,09, et d'améliorer le score AlpacaEval de 88,51 % à 91,99 %. Ces deux mesures permettent d'évaluer l'utilité du chatbot.

Les auteurs espèrent que l'ensemble de données, le modèle de récompense et le modèle de langage open-source permettront d'approfondir la compréhension du mécanisme RLHF et contribueront à la recherche sur la sécurité de l'IA. L'équipe explore activement diverses méthodologies d'entraînement pour les modèles de récompense et de langage, et continuera à communiquer sur ses résultats et les versions de ses modèles.


Évaluation du modèle

L'évaluation des chatbots n'est jamais une tâche simple. L'évaluation de l'utilité des modèles développés par les auteurs s'appuie principalement sur MT-Bench et AlpacaEval, qui sont des comparaisons basées sur GPT-4. La capacité de base du modèle est également testée à l'aide de MMLU. Les résultats sont énumérés ci-dessous.

Conformément aux conclusions du GPT-4 Technical Report, les observations post-RLHF révèlent des tendances similaires. Des améliorations ont été observées en ce qui concerne l'utilité et les caractéristiques de sécurité du modèle ; toutefois, ses capacités de base dans des domaines tels que l'assurance qualité basée sur les connaissances, les mathématiques et le codage sont restées statiques ou ont connu une régression mineure. Une tendance du modèle à répondre avec une prudence excessive à certaines invites bénignes après la RLHF initiale, tout en restant vulnérable aux tentatives de jailbreaking, a également été détectée. Cela pourrait nécessiter un ajustement plus fin avec des modèles de récompense basés sur des règles, avec GPT-4 comme classificateurs, de manière similaire à ce qui est fait dans le GPT-4 Technical Report. Dans la prochaine itération, la qualité du modèle de récompense et la sécurité du modèle linguistique feront également l'objet d'une évaluation comparative.


Le modèle est actuellement inclus dans LMSYS Chatbot Arena pour le chat direct et les comparaisons anonymes afin de tester les préférences humaines. N'hésitez pas à venir le tester.

Comparaisons des benchmarks. Dans l'évaluation des modèles de chat, certaines limites ont été identifiées dans l'utilisation du Huggingface OpenLLM Leaderboard comme point de référence pour les modèles de chat. Contrairement à Alpaca Eval et MT-Bench, le Leaderboard OpenLLM ne prend pas en charge les modèles de chat personnalisés. Cette caractéristique est cruciale pour les évaluations de modèles nuancés, y compris Openchat 3.5, Llama 2 et d'autres modèles qui peuvent être sensibles au modèle de chat. En outre, le classement OpenLLM se concentre sur les capacités de base des LLM, tandis qu'Alpaca Eval et MT Bench sont conçus pour évaluer les assistants de chat. Puisque RLHF n'améliore pas intrinsèquement les capacités des modèles de base, Alpaca Eval et MT-Bench sont préférables pour les tests initiaux. Néanmoins, la mesure ultime pour l'évaluation des modèles est, selon l'équipe, le jugement humain, dont le Chatbot Arena de LMSYS est le meilleur exemple.

Loi de Goodhart pour les données de préférence synthétiques. Il est important de souligner que le classement des préférences du modèle par GPT-4 n'est pas nécessairement en corrélation avec les préférences humaines, un phénomène qui fait écho aux principes de la loi de Goodhart. Essentiellement, un score MT-Bench plus élevé, tel qu'approuvé par GPT-4, n'implique pas automatiquement une plus grande favorabilité humaine, en particulier par rapport aux modèles ayant des scores moins élevés. Les compétences fondamentales du modèle, qui englobent les connaissances de base, le raisonnement, le codage et les mathématiques, restent inchangées. La RLHF améliore principalement le style des réponses, en particulier les aspects d'utilité et de sécurité, comme le montrent ses performances dans MT-Bench et AlpacaEval. Toutefois, ces résultats laissent entrevoir le potentiel de mise à l'échelle des méthodes de RL en ligne à l'aide de données de préférence étendues. Les résultats montrent que lorsque le modèle de récompense est constitué des préférences de GPT-4, il est possible de surpasser les performances des modèles existants avec le RLAIF. Par conséquent, l'adaptation des données de préférence pour inclure des réponses humaines de haute qualité pourrait probablement conduire à des améliorations dans l'alignement sur les préférences humaines.

Aperçu de l'ensemble de données

Nectar est le premier ensemble de données de haute qualité pour les comparaisons par 7, généré par un classement basé sur GPT-4. Pour obtenir un ensemble de données RLHF de haute qualité, il faut réunir les trois éléments suivants : des invites de chat variées, des réponses variées et de haute qualité, ainsi que des étiquettes de classement précises. Les invites du jeu de données de l'équipe sont un amalgame de diverses sources, notamment lmsys-chat-1M, ShareGPT, Antropic/hh-rlhf, UltraFeedback, Evol-Instruct et Flan. Les réponses proviennent principalement d'une variété de modèles, à savoir GPT-4, GPT-3.5-turbo, GPT-3.5-turbo-instruct, LLama-2-7B-chat, et Mistral-7B-Instruct, ainsi que d'autres ensembles de données et modèles existants.


Surmonter les biais de position. L'aspect le plus difficile de la création de Nectar a été l'atténuation du biais positionnel inhérent aux classements basés sur GPT-4. La probabilité qu'une réponse soit sélectionnée comme premier choix en fonction de sa position dans l'invite de classement a fait l'objet d'une analyse approfondie. Les premiers résultats, illustrés dans la première figure ci-dessous, ont révélé un biais important en faveur des réponses situées en première et deuxième positions lorsqu'il était simplement demandé à GPT-4 de classer les réponses sans raisonnement supplémentaire.


Pour remédier à ce problème, comme le montre la deuxième figure, l'équipe a demandé à GPT-4 d'effectuer d'abord des comparaisons par paire pour toutes les paires de réponses avant d'établir un classement par 7. Cette approche a permis de réduire modérément le biais de position. Il a également été envisagé de demander à GPT-4 de noter ou de juger chaque question individuellement avant de la résumer dans un classement par 7, mais cette méthode n'a pas permis de réduire le biais de manière efficace.

L'introduction d'un ordre d'évaluation spécifique, puis d'un ordre d'évaluation aléatoire par paires, comme le montrent respectivement les troisième et quatrième figures, a permis de réduire davantage le biais de position. Cette approche s'est avérée la plus efficace pour contrer le biais de position, ce qui a conduit à la méthodologie finale employée pour la conservation de l'ensemble de données Nectar.

L'équipe de recherche pense que Nectar sera une ressource précieuse pour les développeurs qui souhaitent former des modèles plus efficaces à l'aide de RLHF / RLAIF. Il offre également des réponses de haute qualité pour une gamme variée d'invites, et peut fournir aux chercheurs des informations plus approfondies sur RLHF / RLAIF et sur l'interaction entre les données synthétiques et humaines.

RLHF / RLAIF

Formation du modèle de récompense

L'équipe a formé un modèle de récompense et a réalisé un RL en ligne sur la base de l'ensemble de données Nectar existant. Voici le détail du processus, illustré par souci de clarté.


Le modèle de récompense est affiné à partir de Llama2-7B-Chat, et utilise l'estimateur du maximum de vraisemblance K-wise dans le cadre du modèle Plackett-Luce. L'équipe a découvert que pour les comparaisons par 7, ce nouvel estimateur produit un modèle de récompense plus efficace que la perte originale, qui convertit les comparaisons par paires et minimise la perte d'entropie croisée.

Réglage fin de la politique

Openchat 3.5 a été choisi comme modèle initial pour la mise au point de la politique, en raison de son score élevé de MT Bench (7,81). L'objectif était de vérifier si la méthode RLHF pouvait encore améliorer ce score. Pour ce faire, une méthode RL hors ligne (Direct Preference Optimization - DPO) et trois méthodes RL en ligne ont été expérimentées : Alignement des politiques induit par les avantages (APA), Optimisation des politiques proximales (PPO) et Optimisation des politiques proximales par paire (P3O).

La méthode DPO est plus simple à mettre en œuvre, car elle met directement à jour le modèle linguistique sur la base de l'ensemble de données de préférences hors ligne collectées au préalable. En revanche, les méthodes de RL en ligne telles que PPO échantillonnent de nouvelles réponses en utilisant le modèle de langage actuel, notent les nouvelles réponses avec le modèle de récompense entraîné et mettent à jour le modèle de langage avec les informations de récompense sur les nouvelles réponses. Malgré les difficultés liées à l'optimisation des hyperparamètres pour le PPO, il a été constaté qu'avec des hyperparamètres optimaux, les méthodes de RL en ligne donnaient des résultats comparables. Au final, un point de contrôle a été sélectionné à partir d'une exécution de l'APA. L'expérience préliminaire sur DPO n'a pas montré d'améliorations significatives par rapport au modèle initial Openchat 3.5. Cela est probablement dû au fait qu'Openchat 3.5 a déjà procédé à un réglage fin conditionné du RL (C-RLFT), un format d'entraînement hors ligne différent basé sur les préférences, et que les méthodes de RL hors ligne peuvent ne pas être aussi efficaces que le RL en ligne avec un modèle de récompense de haute qualité. À l'avenir, l'équipe envisage une meilleure procédure de mise au point du modèle de langage en utilisant le RL hors ligne (conditionnel), y compris le DPO ou le C-RLFT, pour exploiter les informations de récompense afin de créer un modèle initial solide et d'améliorer encore l'utilité et l'innocuité de l'entraînement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !