IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM
Avec moins de données d'entraînement et des modèles d'IA de plus petite taille

Le , par Anthony

307PARTAGES

9  0 
Dans un article intitulé "Distilling Step-by-Step ! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes", des chercheurs présentent une nouvelle méthode appelée "distilling step-by-step" (distillation pas à pas) qui permet d'extraire des justifications informatives des grands modèles de langage (LLM) pour former efficacement des modèles plus petits spécifiques à une tâche. Cette approche réduit considérablement la taille du modèle et la quantité de données de formation nécessaires, surpassant ainsi les performances des LLM avec invite few-shot. La recherche offre une solution économe en ressources pour le compromis entre la taille du modèle et les données de formation. L'approche de distillation pas à pas est disponible en avant-première privée sur Vertex AI de Google Cloud Platform pour les utilisateurs désirant la tester.

https://youtu.be/fnDUaDDrR4c

[QUOTE]Les grands modèles de langage (LLM) ont permis un nouveau paradigme d'apprentissage économe en données, dans lequel ils peuvent être utilisés pour résoudre de nouvelles tâches inédites par le biais d'une invite zéro-shot ou few-shot. Cependant, les LLM sont difficiles à déployer pour des applications réelles en raison de leur taille. Par exemple, servir un seul LLM de 175 milliards de paramètres nécessite au moins 350 Go de mémoire GPU à l'aide d'une infrastructure spécialisée, sans parler du fait que les LLM de pointe actuels sont composés de plus de 500 milliards de paramètres. De telles exigences de calcul sont inaccessibles pour de nombreuses équipes de recherche, en particulier pour les applications qui nécessitent une faible latence.

Pour contourner ces difficultés de déploiement, les praticiens choisissent souvent de déployer des modèles spécialisés plus petits. Ces modèles plus petits sont formés à l'aide de l'un des deux paradigmes courants : le réglage fin ou la distillation. Le réglage fin met à jour un modèle plus petit pré-entraîné (par exemple, BERT ou T5) en utilisant des données annotées manuellement en aval. La distillation entraîne les mêmes modèles plus petits avec des étiquettes générées par un LLM plus grand. Malheureusement, pour atteindre des performances comparables à celles des LLM, les méthodes de réglage fin nécessitent des étiquettes générées par l'homme, qui sont coûteuses et fastidieuses à obtenir, tandis que la distillation nécessite de grandes quantités de données non étiquetées, qui peuvent également être difficiles à collecter.

Dans "Distilling Step-by-Step ! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes", présenté à ACL2023, nous nous sommes attaqués à ce compromis entre la taille du modèle et le coût de la collecte des données d'entraînement. Nous présentons la distillation pas à pas, un nouveau mécanisme simple qui nous permet d'entraîner de plus petits modèles spécifiques à une tâche avec beaucoup moins de données d'entraînement que ne l'exigent les approches standard de réglage fin ou de distillation, qui surpassent les performances des LLM avec des invites few-shot. Nous démontrons que le mécanisme de distillation pas à pas permet à un modèle T5 à 770M paramètres de surpasser le modèle PaLM 540B à quelques coups en utilisant seulement 80 % des exemples dans un ensemble de données de référence, ce qui démontre une réduction de plus de 700x de la taille du modèle avec beaucoup moins de données d'entraînement requises par les approches standard.


Distillation pas à pas

L'idée principale de la distillation pas à pas est d'extraire des justifications informatives en langage naturel (c'est-à-dire des étapes de raisonnement intermédiaires) des LLM, qui peuvent à leur tour être utilisées pour former de petits modèles d'une manière plus efficace en termes de données. Plus précisément, les raisonnements en langage naturel expliquent les liens entre les questions d'entrée et les résultats correspondants. Par exemple, à la question "La chambre de Jesse mesure 11 pieds de long et 15 pieds de large. Si elle a déjà 16 pieds carrés de moquette, de combien de moquette a-t-elle besoin pour couvrir tout le sol ?", un LLM peut être incité par la technique d'incitation de la chaîne de pensée (CoT) à fournir des justifications intermédiaires, telles que : "Surface = longueur * largeur. La chambre de Jesse a 11 * 15 pieds carrés." Cela explique mieux le lien entre l'entrée et la réponse finale, "(11 * 15 ) - 16". Ces raisonnements peuvent contenir des connaissances pertinentes sur la tâche, telles que "Surface = longueur * largeur", qui peuvent initialement nécessiter de nombreuses données pour l'apprentissage des petits modèles. Nous utilisons ces justifications extraites comme une supervision supplémentaire et plus riche pour former les petits modèles, en plus des étiquettes de tâches standard.


La distillation pas à pas consiste en deux étapes principales. Dans la première étape, nous tirons parti de l'incitation CoT à quelques reprises pour extraire les justifications des LLM. Spécifiquement, étant donné une tâche, nous préparons quelques exemples dans l'invite d'entrée LLM où chaque exemple est composé d'un triplet contenant : (1) entrée, (2) justification, et (3) sortie. Etant donné l'invite, un LLM est capable d'imiter la démonstration du triplet pour...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !