IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Starling-7B : un nouveau grand modèle de langage (LLM) open source, presque aussi performant que GPT-4
Selon une étude de l'Université de Californie

Le , par Anthony

174PARTAGES

6  0 
Starling-7B est un grand modèle de langage (LLM) ouvert, entraîné avec l'apprentissage par renforcement à partir du feedback via l'IA (RLAIF). Le modèle exploite la puissance de Nectar, un nouveau jeu de données de classement étiqueté GPT-4, ainsi que d'un nouveau pipeline d'apprentissage par récompense et d'ajustement des politiques. Starling-7B-alpha a obtenu un score de 8,09 dans MT Bench avec GPT-4 comme juge, surpassant tous les modèles existants à ce jour sur MT-Bench, à l'exception de GPT-4 et GPT-4 Turbo d'OpenAI. Le jeu de données de classement Nectar, le modèle de récompense Starling-RM-7B-alpha et le modèle de langage Starling-LM-7B-alpha sont publiés sur HuggingFace, ainsi qu'une démo en ligne dans LMSYS Chatbot Arena.


Vue d'ensemble

Le réglage fin supervisé (SFT) a démontré une efficacité remarquable dans le développement de systèmes de chatbot à partir de modèles de langage, en particulier lorsqu'il s'agit d'exploiter des données de haute qualité distillées à partir de ChatGPT/GPT-4 (les exemples incluent Alpaca, Vicuna, OpenHermes 2.5, et Openchat 3.5). Cependant, la question de savoir dans quelle mesure l'apprentissage par renforcement (RL) à partir du feedback humain (RLHF) ou du feedback via l'IA (RLAIF) peut améliorer les modèles lors de la mise à l'échelle de données de préférences de haute qualité reste ouverte. Des projets antérieurs de la communauté open-source, tels que Zephyra-7B, Neural-Chat-7B et Tulu-2-DPO-70B, ont utilisé l'optimisation directe des préférences (DPO), mais leurs performances dans MT Bench (et certaines dans Chatbot Arena), comparées aux principaux modèles SFT comme OpenHermes 2.5 et Openchat 3.5, n'ont pas pleinement mis en évidence le potentiel du RLHF.

Pour faciliter une recherche plus approfondie sur la RLHF, il est essentiel de disposer d'un ensemble de données de classement de haute qualité spécifiquement pour le chat. Nectar est un ensemble de données de classement étiqueté GPT-4 composé de 183 000 invites de chat. Chaque invite comprend 7 réponses distillées à partir de différents modèles tels que GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct, Llama2-7B, ce qui donne un total de 3,8 millions de comparaisons par paires. Des efforts considérables ont été déployés pour atténuer les biais de position lorsque GPT-4 a été sollicité pour établir des classements, dont les détails sont exposés dans la section ci-dessous consacrée à l'ensemble de données.

En outre, les modèles de récompense open-source sont très rares. Cette lacune a été comblée par la publication du modèle de récompense Starling-RM-7B-alpha, entraîné avec une perte K-wise spécifique sur l'ensemble de données Nectar.

Enfin, le modèle linguistique d'Openchat 3.5 a été affiné à l'aide du modèle de récompense entraîné. Cela a permis d'augmenter le score MT-Bench de 7,81 à 8,09, et d'améliorer le score AlpacaEval de 88,51 % à 91,99 %. Ces deux mesures permettent d'évaluer l'utilité du chatbot.

Les auteurs espèrent que l'ensemble de données, le modèle de récompense et le modèle de langage open-source permettront d'approfondir la compréhension du mécanisme RLHF et contribueront à la recherche sur la sécurité de l'IA. L'équipe explore activement diverses méthodologies d'entraînement pour les modèles de récompense et de langage, et continuera à communiquer sur ses résultats et les versions de ses modèles.


Évaluation du modèle

L'évaluation des chatbots n'est jamais une tâche simple. L'évaluation de l'utilité des modèles développés par les auteurs s'appuie principalement sur MT-Bench et AlpacaEval, qui sont des comparaisons basées sur GPT-4. La capacité de base du modèle est également testée à l'aide de MMLU. Les résultats sont énumérés ci-dessous.

Conformément aux conclusions du GPT-4 Technical Report, les observations post-RLHF révèlent des tendances similaires. Des améliorations ont été observées en ce qui concerne l'utilité et les caractéristiques de sécurité du modèle ; toutefois, ses capacités de base dans des domaines tels que l'assurance qualité basée sur les connaissances, les mathématiques et le codage sont restées statiques ou ont connu une régression mineure. Une tendance du modèle à répondre avec une prudence excessive à certaines invites bénignes après la RLHF initiale, tout en restant vulnérable aux tentatives de jailbreaking, a également été détectée. Cela pourrait nécessiter un ajustement plus fin avec des modèles de récompense basés sur des règles, avec GPT-4 comme classificateurs, de manière similaire à ce qui est fait dans le GPT-4 Technical Report. Dans la prochaine itération, la qualité du modèle de récompense et la sécurité du modèle linguistique feront également l'objet d'une évaluation comparative.


Le modèle est actuellement inclus dans LMSYS Chatbot Arena pour le chat direct et les comparaisons anonymes afin de tester les préférences humaines. N'hésitez pas à venir le tester.

Comparaisons des benchmarks. Dans l'évaluation des modèles de chat, certaines limites ont été identifiées dans l'utilisation du Huggingface OpenLLM Leaderboard comme point de référence pour les modèles de chat. Contrairement à Alpaca Eval et MT-Bench, le Leaderboard OpenLLM ne prend pas en charge les modèles de chat personnalisés. Cette caractéristique est cruciale pour les évaluations de modèles nuancés, y compris Openchat 3.5, Llama 2 et d'autres modèles qui peuvent être sensibles au modèle de chat. En outre, le classement OpenLLM se concentre sur les capacités de base des LLM, tandis qu'Alpaca Eval et MT Bench sont conçus pour évaluer les assistants de chat. Puisque RLHF n'améliore pas intrinsèquement les capacités des modèles de base, Alpaca Eval et MT-Bench sont préférables pour les tests initiaux. Néanmoins, la mesure ultime pour l'évaluation des modèles est, selon l'équipe, le jugement humain, dont le Chatbot Arena de LMSYS est le meilleur exemple.

Loi de Goodhart pour les données de préférence synthétiques. Il est important de souligner que le classement des préférences du modèle par GPT-4 n'est pas nécessairement en corrélation avec les préférences humaines, un phénomène qui fait écho aux principes de la loi de Goodhart. Essentiellement, un score MT-Bench plus élevé, tel qu'approuvé par GPT-4, n'implique pas automatiquement une plus grande favorabilité humaine, en particulier par rapport aux modèles ayant des scores moins élevés. Les compétences fondamentales du modèle, qui englobent les connaissances de base, le raisonnement, le codage et les mathématiques, restent inchangées. La RLHF améliore principalement le style des réponses, en particulier les aspects d'utilité et de sécurité, comme le montrent ses performances dans MT-Bench et AlpacaEval. Toutefois, ces résultats laissent entrevoir le potentiel de mise à l'échelle des méthodes de RL en ligne à l'aide de données de préférence étendues. Les résultats montrent que lorsque le modèle de récompense est constitué des préférences de GPT-4, il est possible de surpasser les performances des modèles existants avec le RLAIF. Par conséquent, l'adaptation des données de préférence pour inclure des réponses humaines de haute qualité pourrait probablement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !