IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'entreprise technologique chinoise Alibaba a lancé une nouvelle version de son modèle d'IA Qwen 2.5-Max, affirmant qu'il surpasse DeepSeek :
"Qwen 2.5-Max surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B"

Le , par Jade Emy

1PARTAGES

4  0 
La société technologique chinoise Alibaba a publié une nouvelle version de son modèle d'intelligence artificielle (IA) Qwen 2.5-Max qui, selon elle, surpasse le très acclamé DeepSeek-V3. Le moment inhabituel de la sortie du Qwen 2.5-Max, le premier jour du Nouvel An lunaire, alors que la plupart des Chinois sont en congé et en famille, montre la pression que l'ascension fulgurante de la startup chinoise DeepSeek au cours des trois dernières semaines a exercée non seulement sur ses rivaux étrangers, mais aussi sur ses concurrents nationaux.

Récemment, la startup chinoise d'IA DeepSeek a publié un nouveau modèle d'IA qui a provoqué une onde de choc dans la communauté de l'IA, faisant chuter les actions de grandes entreprises américaines comme Nvidia. Le modèle R1 de DeepSeek s'est fait remarqué pour ses performances comparables au modèle o1 d'OpenAI pour 95 % moins cher. Aujourd'hui, le modèle Qwen d'Alibaba veut faire sa propre marque, lancé le premier jour du Nouvel An chinois.

Pour rappel, Qwen est une famille de grands modèles de langage développés par Alibaba. Alibaba a d'abord lancé une version bêta de Qwen en avril 2023 sous le nom de Tongyi Qianwen. En juin 2024, Alibaba a lancé Qwen 2 et, en septembre 2024, a publié certains de ses modèles en open source, tout en conservant la propriété de ses modèles les plus avancés. En juillet 2024, il a été classé comme le meilleur modèle de langue chinoise dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.

Mais depuis la sortie du modèle R1 de DeepSeek, ce classement a été chamboulé. Pour rester dans la course à l'IA, Alibaba a donc lancé un nouveau modèle de Qwen, Qwen 2.5-Max, affirmant qu'il surpasse le nouveau modèle de DeepSeek. "Qwen 2.5-Max surpasse ... presque tous les modèles GPT-4o, DeepSeek-V3 et Llama-3.1-405B", a déclaré l'unité cloud d'Alibaba. Les autres modèles mentionnés sont OpenAI et les modèles d'IA open-source les plus avancés de Meta.


Comme il s'agit d'un jour férié en Chine, l'empressement à lancer Qwen pourrait être une réponse à la fureur suscitée par DeepSeek. En effet, d'autres entreprises technologiques s'empressent de montrer ce qu'elles ont à offrir, le PDG d'OpenAI, Sam Altman, s'empressant à la fois de féliciter DeepSeek et d'affirmer que son entreprise peut encore faire mieux. Dans le même temps, ByteDance, propriétaire de TikTok, a publié une mise à jour de son propre modèle d'IA, affirmant qu'il surpassait OpenAI dans un test de référence largement utilisé, l'AIME.

Ce n'est pas la première fois que DeepSeek déclenche le chaos dans l'industrie technologique, son modèle précédent, DeepSeek-V2, ayant déclenché une guerre des prix en Chine en mai 2024. DeepSeek a l'habitude de proposer des modèles open-source et étonnamment bon marché, le modèle V2 ne coûtant que 1 yuan (0,14 dollar) pour 1 million de jetons et le modèle V3 étant lancé après un investissement de moins de 6 millions de dollars.

En juillet 2024, le fondateur de DeepSeek, Liang Wenfeng, a affirmé que sa startup "ne se souciait pas" de la guerre des prix. L'objectif de l'entreprise est plutôt de parvenir à l'AGI (intelligence générale artificielle). En soi, cela contraste avec certains fondateurs américains de l'IA, comme Altman, qui vise la superintelligence de l'IA.

Voici la présentation de Qwen 2.5-Max par Alibaba :

Il est largement reconnu que la mise à l'échelle continue de la taille des données et de la taille du modèle peut conduire à des améliorations significatives de l'intelligence du modèle. Cependant, la communauté de la recherche et de l'industrie n'a qu'une expérience limitée de la mise à l'échelle efficace de modèles extrêmement volumineux, qu'il s'agisse de modèles denses ou de mélanges d'experts (MoE).

De nombreux détails critiques concernant ce processus de mise à l'échelle n'ont été révélés qu'avec la récente publication de DeepSeek V3. Parallèlement, nous développons Qwen 2.5-Max, un modèle MoE à grande échelle qui a été pré-entraîné sur plus de 20 millions de milliards de jetons et post-entraîné avec les méthodologies Supervised Fine-Tuning (SFT) et Reinforcement Learning from Human Feedback (RLHF).

Aujourd'hui, nous sommes ravis de partager les résultats de performance de Qwen 2.5-Max et d'annoncer la disponibilité de son API via Alibaba Cloud. Nous vous invitons également à découvrir Qwen 2.5-Max sur Qwen Chat !

Performances de Qwen 2.5-Max

Qwen 2.5-Max a été évalué aux côtés des principaux modèles, qu'ils soient propriétaires ou à poids ouvert, sur une série de points de référence (benchmark). Il s'agit notamment de MMLU-Pro, qui teste les connaissances à travers des problèmes de niveau universitaire, LiveCodeBench, qui évalue les capacités de codage, LiveBench, qui teste de manière exhaustive les capacités générales, et Arena-Hard, qui se rapproche des préférences humaines. Voici les résultats comprennent les scores de performance pour les modèles de base et les modèles d'instruction.

D'abord, les performances des modèles d'instruction, qui peuvent servir à des applications en aval telles que le chat et le codage. Les résultats de performance de Qwen 2.5-Max sont présentés avec les principaux modèles de pointe, y compris DeepSeek V3, GPT-4o, et Claude-3.5-Sonnet.


D'après ces tests, Qwen2.5-Max surpasse DeepSeek V3 dans des benchmarks tels que Arena-Hard, LiveBench, LiveCodeBench, et GPQA-Diamond, tout en démontrant des résultats compétitifs dans d'autres évaluations, y compris MMLU-Pro.

Cependant, lors de la comparaison des modèles de base,Alibaba n'a pas été en mesure d'accéder aux modèles propriétaires tels que GPT-4o et Claude-3.5-Sonnet. Ils ont donc évalué Qwen2.5-Max par rapport à DeepSeek V3, un modèle MoE à poids ouvert de premier plan, Llama-3.1-405B, le plus grand modèle dense à poids ouvert, et Qwen2.5-72B, qui figure également parmi les meilleurs modèles denses à poids ouvert. Les résultats de cette comparaison sont présentés ci-dessous.


L'éditeur de Qwen commente ces résultats tout en se projetant sur le futur du modèle :

Nos modèles de base ont démontré des avantages significatifs sur la plupart des points de référence, et nous sommes optimistes quant aux progrès des techniques de post-entraînement qui permettront à la prochaine version de Qwen2.5-Max d'atteindre de nouveaux sommets.

La mise à l'échelle des données et de la taille des modèles ne met pas seulement en évidence les progrès réalisés dans le domaine de l'intelligence des modèles, mais reflète également notre engagement inébranlable en faveur de la recherche de pointe. Nous sommes déterminés à améliorer les capacités de réflexion et de raisonnement des grands modèles de langage grâce à l'application innovante de l'apprentissage par renforcement à grande échelle. Cet effort promet de permettre à nos modèles de transcender l'intelligence humaine, en libérant le potentiel d'explorer des territoires inexplorés de la connaissance et de la compréhension.
Utiliser Qwen 2.5-Max

Qwen 2.5-Max est désormais disponible dans Qwen Chat, et vous pouvez discuter directement avec le modèle.

L'API de Qwen 2.5-Max (dont le nom de modèle est qwen-max-2025-01-25) est disponible. Vous devrez d'abord enregistrer un compte Alibaba Cloud et activer le service Alibaba Cloud Model Studio, puis naviguer vers la console et créer une clé API. De plus les API de Qwen sont compatibles avec l'OpenAI-API. Voici un exemple d'utilisation de Qwen 2.5-Max en Python :

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from openai import OpenAI
import os
 
client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
 
completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)
 
print(completion.choices[0].message)


Démo en ligne gratuite sur Huggingface

Source : Annonce de Qwen 2.5-Max

Et vous ?

Quel est votre avis sur ce nouveau modèle de Qwen ?
Pensez-vous que ces résultats de benchmarks sont crédibles ou pertinents ?

Voir aussi :

Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3 , GPT-4O , et Claude

Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI

Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur

Une erreur dans cette actualité ? Signalez-nous-la !