IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Le , par Anthony

0PARTAGES

7  0 
Alibaba ouvre sa série Qwen, qui comprend maintenant Qwen, les modèles de langage de base, à savoir Qwen-1.8B, Qwen-7B, Qwen-14B, et Qwen-72B, ainsi que Qwen-Chat, les modèles de chat, à savoir Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, et Qwen-72B-Chat.

Alibaba dispose de modèles linguistiques de base solides, qui ont été préformés de manière stable pour offrir jusqu'à 3 000 milliards de tokens de données multilingues avec une large couverture de domaines, de langues (avec un accent sur le chinois et l'anglais), etc. Ils sont capables d'atteindre des performances compétitives sur des ensembles de données de référence. En outre, nous disposons de modèles de chat alignés sur les préférences humaines basées sur SFT et RLHF (pas encore publiés), qui sont capables de chatter, de créer du contenu, d'extraire des informations, de résumer, de traduire, de coder, de résoudre des problèmes mathématiques, etc. et d'utiliser des outils, de jouer le rôle d'agents ou même d'interprètes de code, etc.


Performances

Les modèles Qwen surpassent les modèles de référence de taille similaire sur une série d'ensembles de données de référence, par exemple MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc., qui évaluent les capacités des modèles en matière de compréhension du langage naturel, de résolution de problèmes mathématiques, de codage, etc. Qwen-72B obtient de meilleures performances que LLaMA2-70B dans toutes les tâches et surpasse GPT-3.5 dans 7 tâches sur 10.




Pour tous les modèles comparés, les meilleurs scores entre leurs résultats officiels et OpenCompass sont indiqués.

Pour plus de résultats expérimentaux (performances détaillées du modèle sur d'autres ensembles de données de référence) et de détails, veuillez vous référer au rapport technique en cliquant ici.

Source : Qwen (GitHub)

Et vous ?

Que pensez-vous de la série de modèles de base Qwen et de leurs performances ?

Voir aussi

Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta

Alibaba DAMO Academy dévoile M6, un modèle d'IA à 10 000 milliards de paramètres doté de fonctions multimodales et multitâches, il surpasse les modèles de Google, OpenAI et Microsoft

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jamesdu75
Nouveau membre du Club https://www.developpez.com
Le 01/12/2023 à 22:28
Citation Envoyé par eddy72 Voir le message
Je serais curieux de connaître les pourcentages de personnes hors territoire chinois qui utilisent les services d'Alibaba ?
ben déjà Ali Express et pas mal de pays d'Asie
1  0