Alibaba présente Qwen2, son grand modèle de langage open source. Elle offre des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe.Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul.
Fondée en 1999, la société Alibaba est principalement connu pour ses services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B), ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et d'informatique en nuage. Mais elle vient de dévoiler l'évolution de son grand modèle de langage : Qwen1.5 vers Qwen2.
Alibaba propose des modèles pré-entraînés et adaptés aux instructions de 5 tailles, dont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, et Qwen2-72B. Qwen2 a été formé sur des données dans 27 langues supplémentaires en plus de l'anglais et du chinois. Cette version offre des performances de pointe dans un grand nombre d'évaluations de référence, ainsi que des performances nettement améliorées en matière de codage et de mathématiques. De plus, Qwen2 prend en charge de la longueur de contexte étendue jusqu'à 128K tokens avec Qwen2-7B-Instruct et Qwen2-72B-Instruct.
Information sur les modèles
La série Qwen2 comprend des modèles de base et des modèles accordés par instruction de 5 tailles, notamment Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B. Les informations clés des modèles sont illustrées dans le tableau suivant :
Plus précisément, dans Qwen1.5, seuls Qwen1.5-32B et Qwen1.5-110B ont adopté l'attention aux requêtes de groupe (GQA). Cette fois, pour toutes les tailles de modèles, Alibaba applique la GQA afin qu'ils puissent profiter des avantages d'une vitesse plus rapide et d'une utilisation moindre de la mémoire dans l'inférence du modèle. Pour les petits modèles, Alibaba a préféré l'application de l'encastrement lié, car les grands encastrements épars représentent une grande proportion des paramètres totaux du modèle.
En ce qui concerne la longueur du contexte, tous les modèles linguistiques de base ont été entraînés sur des données de longueur de contexte de 32 000 tokens, et ils ont observé des capacités d'extrapolation satisfaisantes jusqu'à 128 000 dans l'évaluation PPL. Cependant, pour les modèles adaptés aux instructions, ils ne se sont pas contenté d'une simple évaluation PPL ; ils voulaient que les modèles soient capables de comprendre correctement un contexte long et d'accomplir des tâches.
Dans le tableau, ils énumèrent les capacités de longueur de contexte des modèles adaptés aux instructions, telles qu'elles ont été évaluées par l'évaluation de la tâche "Aiguille dans une botte de foin". Notamment, lorsqu'ils sont complétés par YARN, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct font preuve d'une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 000 tokens.
Des efforts considérables ont été déployés pour augmenter le volume et la qualité des ensembles de données de pré-entraînement et de mise au point de l'instruction dans un spectre linguistique diversifié, au-delà de l'anglais et du chinois, afin de renforcer ses compétences multilingues. Bien que les grands modèles de langage possèdent une capacité inhérente à se généraliser à d'autres langues, Alibaba souligne explicitement l'inclusion de 27 langues supplémentaires dans la formation des modèles :
En outre, ils ont consacré des efforts considérables à la prise en compte de l'alternance codique, un phénomène fréquent dans les évaluations multilingues. Par conséquent, la capacité de ses modèles à gérer ce phénomène s'est considérablement améliorée. Les évaluations utilisant des messages-guides qui induisent généralement des changements de code d'une langue à l'autre confirment une réduction substantielle des problèmes associés.
Performances
Les évaluations comparatives révèlent des améliorations substantielles des performances pour les modèles à grande échelle (70B+ paramètres) par rapport à Qwen1.5. L'évaluation présenté par Alibaba est centrée sur le modèle de grande taille Qwen2-72B. En termes de modèles linguistiques de base, Qwen2-72B et les modèles ouverts de pointe sont évalués pour différentes capacités, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.
Bénéficiant d'ensembles de données méticuleusement traités et de méthodes de formation optimisées, Qwen2-72B affiche des performances supérieures à celles des principaux modèles tels que Llama-3-70B. Il surpasse...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.