Alibaba dispose de modèles linguistiques de base solides, qui ont été préformés de manière stable pour offrir jusqu'à 3 000 milliards de tokens de données multilingues avec une large couverture de domaines, de langues (avec un accent sur le chinois et l'anglais), etc. Ils sont capables d'atteindre des performances compétitives sur des ensembles de données de référence. En outre, nous disposons de modèles de chat alignés sur les préférences humaines basées sur SFT et RLHF (pas encore publiés), qui sont capables de chatter, de créer du contenu, d'extraire des informations, de résumer, de traduire, de coder, de résoudre des problèmes mathématiques, etc. et d'utiliser des outils, de jouer le rôle d'agents ou même d'interprètes de code, etc.
Performances
Les modèles Qwen surpassent les modèles de référence de taille similaire sur une série d'ensembles de données de référence, par exemple MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc., qui évaluent les capacités des modèles en matière de compréhension du langage naturel, de résolution de problèmes mathématiques, de codage, etc. Qwen-72B obtient de meilleures performances que LLaMA2-70B dans toutes les tâches et surpasse GPT-3.5 dans 7 tâches sur 10.
Pour tous les modèles comparés, les meilleurs scores entre leurs résultats officiels et OpenCompass sont indiqués.
Pour plus de résultats expérimentaux (performances détaillées du modèle sur d'autres ensembles de données de référence) et de détails, veuillez vous référer au rapport technique en cliquant ici.
Source : Qwen (GitHub)
Et vous ?
Que pensez-vous de la série de modèles de base Qwen et de leurs performances ?
Voir aussi
Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta
Alibaba DAMO Academy dévoile M6, un modèle d'IA à 10 000 milliards de paramètres doté de fonctions multimodales et multitâches, il surpasse les modèles de Google, OpenAI et Microsoft