Vue d'ensemble
Le réglage fin supervisé (SFT) a démontré une efficacité remarquable dans le développement de systèmes de chatbot à partir de modèles de langage, en particulier lorsqu'il s'agit d'exploiter des données de haute qualité distillées à partir de ChatGPT/GPT-4 (les exemples incluent Alpaca, Vicuna, OpenHermes 2.5, et Openchat 3.5). Cependant, la question de savoir dans quelle mesure l'apprentissage par renforcement (RL) à partir du feedback humain (RLHF) ou du feedback via l'IA (RLAIF) peut améliorer les modèles lors de la mise à l'échelle de données de préférences de haute qualité reste ouverte. Des projets antérieurs de la communauté open-source, tels que Zephyra-7B, Neural-Chat-7B et Tulu-2-DPO-70B, ont utilisé l'optimisation directe des préférences (DPO), mais leurs performances dans MT Bench (et certaines dans Chatbot Arena), comparées aux principaux modèles SFT comme OpenHermes 2.5 et Openchat 3.5, n'ont pas pleinement mis en évidence le potentiel du RLHF.
Pour faciliter une recherche plus approfondie sur la RLHF, il est essentiel de disposer d'un ensemble de données de classement de haute qualité spécifiquement pour le chat. Nectar est un ensemble de données de classement étiqueté GPT-4 composé de 183 000 invites de chat. Chaque invite comprend 7 réponses distillées à partir de différents modèles tels que GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct, Llama2-7B, ce qui donne un total de 3,8 millions de comparaisons par paires. Des efforts considérables ont été déployés pour atténuer les biais de position lorsque GPT-4 a été sollicité pour établir des classements, dont les détails sont exposés dans la section ci-dessous consacrée à l'ensemble de données.
En outre, les modèles de récompense open-source sont très rares. Cette lacune a été comblée par la publication du modèle de récompense Starling-RM-7B-alpha, entraîné avec une perte K-wise spécifique sur l'ensemble de données Nectar.
Enfin, le modèle linguistique d'Openchat 3.5 a été affiné à l'aide du modèle de récompense entraîné. Cela a permis d'augmenter le score MT-Bench de 7,81 à 8,09, et d'améliorer le score AlpacaEval de 88,51 % à 91,99 %. Ces deux mesures permettent d'évaluer l'utilité du chatbot.
Les auteurs espèrent que l'ensemble de données, le modèle de récompense et le modèle de langage open-source permettront d'approfondir la compréhension du mécanisme RLHF et contribueront à la recherche sur la sécurité de l'IA. L'équipe explore activement diverses méthodologies d'entraînement pour les modèles de récompense et de langage, et continuera à communiquer sur ses résultats et les versions de ses modèles.
Évaluation du modèle
L'évaluation des chatbots n'est jamais une tâche simple. L'évaluation de l'utilité des modèles développés par les auteurs s'appuie principalement sur MT-Bench et AlpacaEval, qui sont des comparaisons basées sur GPT-4. La capacité de base du modèle est également testée à l'aide de MMLU. Les résultats sont énumérés ci-dessous.
Conformément aux conclusions du GPT-4 Technical Report, les observations post-RLHF révèlent des tendances similaires. Des améliorations ont été observées en ce qui concerne l'utilité et les caractéristiques de sécurité du modèle ; toutefois, ses capacités de base dans des domaines tels que l'assurance qualité basée sur les connaissances, les mathématiques et le codage sont restées statiques ou ont connu une régression mineure. Une tendance du modèle à répondre avec une prudence excessive à certaines invites bénignes après la RLHF initiale, tout en restant vulnérable aux tentatives de jailbreaking, a également été détectée. Cela pourrait nécessiter un ajustement plus fin avec des modèles de récompense basés sur des règles, avec GPT-4 comme classificateurs, de manière similaire à ce qui est fait dans le GPT-4 Technical Report. Dans la prochaine itération, la qualité du modèle de récompense et la sécurité du modèle linguistique feront également l'objet d'une évaluation comparative.
Le modèle est actuellement inclus dans LMSYS Chatbot Arena pour le chat direct et les comparaisons anonymes afin de tester les préférences humaines. N'hésitez pas à venir le tester.
Comparaisons des benchmarks. Dans l'évaluation des modèles de chat, certaines limites ont été identifiées dans l'utilisation du Huggingface OpenLLM Leaderboard comme point de référence pour les modèles de chat. Contrairement à Alpaca Eval et MT-Bench, le Leaderboard OpenLLM ne prend pas en charge les modèles de chat personnalisés. Cette caractéristique est cruciale pour les évaluations de modèles nuancés, y compris Openchat 3.5, Llama 2 et d'autres modèles qui peuvent être sensibles au modèle de chat. En outre, le classement OpenLLM se concentre sur les capacités de base des LLM, tandis qu'Alpaca Eval et MT Bench sont conçus pour évaluer les assistants de chat. Puisque RLHF n'améliore pas intrinsèquement les capacités des modèles de base, Alpaca Eval et MT-Bench sont préférables pour les tests initiaux. Néanmoins, la mesure ultime pour l'évaluation des modèles est, selon l'équipe, le jugement humain, dont le Chatbot Arena de LMSYS est le meilleur exemple.
Loi de Goodhart pour les données de préférence synthétiques. Il est important de souligner que le classement des préférences du modèle par GPT-4 n'est pas nécessairement en corrélation avec les préférences humaines, un phénomène qui fait écho aux principes de la loi de Goodhart. Essentiellement, un score MT-Bench plus élevé, tel qu'approuvé par GPT-4, n'implique pas automatiquement une plus grande favorabilité humaine, en particulier par rapport aux modèles ayant des scores moins élevés. Les compétences fondamentales du modèle, qui englobent les connaissances de base, le raisonnement, le codage et les mathématiques, restent inchangées. La RLHF améliore principalement le style des réponses, en particulier les aspects d'utilité et de sécurité, comme le montrent ses performances dans MT-Bench et AlpacaEval. Toutefois, ces résultats laissent entrevoir le potentiel de mise à l'échelle des méthodes de RL en ligne à l'aide de données de préférence étendues. Les résultats montrent que lorsque le modèle de récompense est constitué des préférences de GPT-4, il est possible de surpasser les performances des modèles existants avec le RLAIF. Par conséquent, l'adaptation des données de préférence pour inclure des réponses humaines de haute qualité pourrait probablement conduire à des améliorations dans l'alignement sur les préférences humaines.
Aperçu de l'ensemble de données
Nectar est le premier ensemble de données de haute qualité pour les comparaisons par 7, généré par un classement basé sur GPT-4. Pour obtenir un ensemble de données RLHF de haute qualité, il faut réunir les trois éléments suivants : des invites de chat variées, des réponses variées et de haute qualité, ainsi que des étiquettes de classement précises. Les invites du jeu de données de l'équipe sont un amalgame de diverses sources, notamment lmsys-chat-1M, ShareGPT, Antropic/hh-rlhf, UltraFeedback, Evol-Instruct et Flan. Les réponses proviennent principalement d'une variété de modèles, à savoir GPT-4, GPT-3.5-turbo, GPT-3.5-turbo-instruct, LLama-2-7B-chat, et Mistral-7B-Instruct, ainsi que d'autres ensembles de données et modèles existants.
Surmonter les biais de position. L'aspect le plus difficile de la création de Nectar a été l'atténuation du biais positionnel inhérent aux classements basés sur GPT-4. La probabilité qu'une réponse soit sélectionnée comme premier choix en fonction de sa position dans l'invite de classement a fait l'objet d'une analyse approfondie. Les premiers résultats, illustrés dans la première figure ci-dessous, ont révélé un biais important en faveur des réponses situées en première et deuxième positions lorsqu'il était simplement demandé à GPT-4 de classer les réponses sans raisonnement supplémentaire.
Pour remédier à ce problème, comme le montre la deuxième figure, l'équipe a demandé à GPT-4 d'effectuer d'abord des comparaisons par paire pour toutes les paires de réponses avant d'établir un classement par 7. Cette approche a permis de réduire modérément le biais de position. Il a également été envisagé de demander à GPT-4 de noter ou de juger chaque question individuellement avant de la résumer dans un classement par 7, mais cette méthode n'a pas permis de réduire le biais de manière efficace.
L'introduction d'un ordre d'évaluation spécifique, puis d'un ordre d'évaluation aléatoire par paires, comme le montrent respectivement les troisième et quatrième figures, a permis de réduire davantage le biais de position. Cette approche s'est avérée la plus efficace pour contrer le biais de position, ce qui a conduit à la méthodologie finale employée pour la conservation de l'ensemble de données Nectar.
L'équipe de recherche pense que Nectar sera une ressource précieuse pour les développeurs qui souhaitent former des modèles plus efficaces à l'aide de RLHF / RLAIF. Il offre également des réponses de haute qualité pour une gamme variée d'invites, et peut fournir aux chercheurs des informations plus approfondies sur RLHF / RLAIF et sur l'interaction entre les données synthétiques et humaines.
RLHF / RLAIF
Formation du modèle de récompense
L'équipe a formé un modèle de récompense et a réalisé un RL en ligne sur la base de l'ensemble de données Nectar existant. Voici le détail du processus, illustré par souci de clarté.
Le modèle de récompense est affiné à partir de Llama2-7B-Chat, et utilise l'estimateur du maximum de vraisemblance K-wise dans le cadre du modèle Plackett-Luce. L'équipe a découvert que pour les comparaisons par 7, ce nouvel estimateur produit un modèle de récompense plus efficace que la perte originale, qui convertit les comparaisons par paires et minimise la perte d'entropie croisée.
Réglage fin de la politique
Openchat 3.5 a été choisi comme modèle initial pour la mise au point de la politique, en raison de son score élevé de MT Bench (7,81). L'objectif était de vérifier si la méthode RLHF pouvait encore améliorer ce score. Pour ce faire, une méthode RL hors ligne (Direct Preference Optimization - DPO) et trois méthodes RL en ligne ont été expérimentées : Alignement des politiques induit par les avantages (APA), Optimisation des politiques proximales (PPO) et Optimisation des politiques proximales par paire (P3O).
La méthode DPO est plus simple à mettre en œuvre, car elle met directement à jour le modèle linguistique sur la base de l'ensemble de données de préférences hors ligne collectées au préalable. En revanche, les méthodes de RL en ligne telles que PPO échantillonnent de nouvelles réponses en utilisant le modèle de langage actuel, notent les nouvelles réponses avec le modèle de récompense entraîné et mettent à jour le modèle de langage avec les informations de récompense sur les nouvelles réponses. Malgré les difficultés liées à l'optimisation des hyperparamètres pour le PPO, il a été constaté qu'avec des hyperparamètres optimaux, les méthodes de RL en ligne donnaient des résultats comparables. Au final, un point de contrôle a été sélectionné à partir d'une exécution de l'APA. L'expérience préliminaire sur DPO n'a pas montré d'améliorations significatives par rapport au modèle initial Openchat 3.5. Cela est probablement dû au fait qu'Openchat 3.5 a déjà procédé à un réglage fin conditionné du RL (C-RLFT), un format d'entraînement hors ligne différent basé sur les préférences, et que les méthodes de RL hors ligne peuvent ne pas être aussi efficaces que le RL en ligne avec un modèle de récompense de haute qualité. À l'avenir, l'équipe envisage une meilleure procédure de mise au point du modèle de langage en utilisant le RL hors ligne (conditionnel), y compris le DPO ou le C-RLFT, pour exploiter les informations de récompense afin de créer un modèle initial solide et d'améliorer encore l'utilité et l'innocuité de l'entraînement par récompense et du RL en ligne.
Dans l'implémentation actuelle des méthodes de RL en ligne, seules les quatre dernières couches du modèle sont dégelées, afin d'accélérer la vitesse d'apprentissage. Le modèle est entraîné sur 8 GPU A100 avec une taille de lot de 28 et 10 000 étapes au total. À l'avenir, il est prévu d'expérimenter le LoRA ou le réglage fin de l'ensemble entier des paramètres. Cette avancée pourrait encore améliorer la qualité globale du modèle.
L'équipe a observé que la qualité de l'ensemble de données de préférences et du modèle de récompense influençait considérablement les résultats, plus que la méthode d'ajustement de la politique elle-même. Le développement de meilleures méthodes d'apprentissage par récompense est encouragé, et les chercheurs et développeurs sont invités à contribuer à un meilleur ensemble de données de préférences open-source, et à utiliser l'ensemble de données pour l'entraînement et les tests. Il est probable que Nectar puisse apporter un gain plus important avec un modèle de récompense et un modèle linguistique plus grands, conformément aux lois de mise à l'échelle du modèle de récompense.
Évaluation du RLHF
L'évaluation des algorithmes RLHF présente des défis uniques, en particulier pour discerner si les gains de performance sont dus à l'imitation des meilleures politiques de démonstration dans les méthodes basées sur les RL hors ligne ou à l'extrapolation de nouveaux signaux de récompense dans les méthodes basées sur les RL en ligne. Il est préconisé de tester les algorithmes de RLHF sur l'ensemble de données de l'équipe, en commençant par des modèles déjà capables d'apprendre à partir de démonstrations, tels qu'Openchat 3.5. La référence ultime devrait être la création de modèles qui surpassent le modèle initial à la fois dans GPT-4 que dans les préférences humaines.
Cependant, l'entraînement sur les données de préférences GPT-4 et l'évaluation par rapport à la notation basée sur GPT-4 peuvent entraîner un double impact des lois de Goodhart. Une sur-optimisation par rapport aux préférences GPT-4 pourrait involontairement nuire aux préférences humaines réelles. De même, le modèle de récompense, qui est une approximation de la préférence GPT-4, pourrait également ne pas s'aligner sur la préférence GPT-4 elle-même en cas de sur-optimisation. Le défi consiste à utiliser efficacement les données de préférences synthétiques pour atténuer ces problèmes et évaluer les modèles avec une intervention humaine minimale.
Limites
Le Starling-7B, comme d'autres LLM de petite taille, a ses limites. Il éprouve des difficultés dans les tâches impliquant un raisonnement ou des mathématiques et ne s'identifie pas toujours avec précision ou ne garantit pas l'exactitude factuelle de ses résultats. En outre, il est sensible aux invites de jailbreaking, car il n'a pas été explicitement formé pour ces scénarios. Il a également été observé que, dans de rares cas, le modèle peut générer un contenu verbeux ou inutile. L'équipe s'engage à améliorer le modèle Starling-7B, en explorant de nouvelles méthodes d'entraînement par récompense et de formation à la politique. Par ailleurs, elle invite la communauté à collaborer avec elle dans le but d'améliorer l'ensemble de données ouvert, les modèles de récompense et les modèles de langage avec RLHF.
Licence
L'ensemble de données, le modèle et la démo en ligne sont un aperçu de recherche destiné à un usage non commercial uniquement, soumis à la licence de distillation de données de LLaMA, aux conditions d'utilisation des données générées par OpenAI et aux pratiques de confidentialité de ShareGPT.
Source : "Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF" (Banghua Zhu, University of California, Berkeley)
Et vous ?
Que pensez-vous du modèle de langage Starling-7B ?
Trouvez-vous que les résultats de cette étude sont pertinents et utiles ?
Pensez-vous que cette initiative sera bénéfique pour le domaine de l'IA en général ?
Voir aussi
DoctorGPT : Un grand modèle de langage qui peut réussir l'examen de l'ordre des médecins aux États-Unis
Falcon 180B : un modèle d'IA open source avec 180 milliards de paramètres entraînés sur 3 500 milliards de jetons, il serait plus performant que le modèle Llama 2 de Meta et égale PaLM-2 de Google
La startup Cerebras publie Cerebras-GPT, une famille de modèles linguistiques de type ChatGPT en open-source, les sept modèles GPT-3 établissent des records de précision et d'efficacité de calcul
Guidance, un langage pour le contrôle des grands modèles linguistiques modernes, il serait plus efficace et plus efficient que l'invite ou le chaînage traditionnel