IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le géant chinois de la Tech Alibaba Group lance le modèle d'IA Qwen 3, doté de nouvelles capacités de raisonnement hybride, et affirme qu'il surpasse les modèles d'IA de Google, d'OpenAI et de DeepSeek

Le , par Anthony

0PARTAGES

4  0 
Alibaba Group a lancé Qwen 3, une nouvelle version de son modèle d'intelligence artificielle (IA). Cette sortie s'inscrit dans le cadre de la concurrence croissante dans le domaine de l'IA en Chine, où des startups locales comme DeepSeek ont créé des modèles performants à des prix inférieurs à ceux des entreprises occidentales.

Alibaba Group Holding Limited, connu sous le nom d'Alibaba, est une société technologique multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et la technologie. Fondée le 28 juin 1999 à Hangzhou, Zhejiang, l'entreprise fournit des services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B) via des places de marché chinoises et mondiales, ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et de cloud computing. Elle possède et exploite un portefeuille diversifié d'entreprises à travers le monde dans de nombreux secteurs d'activité.

La récente initiative du géant asiatique fait suite au lancement par Alibaba de Qwen 2.5-Max, un modèle d'IA qui, selon l'entreprise, surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B de Meta. La sortie de ce modèle, qui a coïncidé avec le premier jour du nouvel An lunaire, période de congé pour la plupart des Chinois, témoigne de la pression concurrentielle à laquelle Alibaba est confronté de la part d'acteurs nationaux en plein essor.

Le lancement de Qwen 3 intervient, quant à elle, à un moment où les entreprises technologiques chinoises renforcent leurs capacités en matière d'IA. Baidu, par exemple, a récemment lancé ses modèles Ernie 4.5 Turbo et Ernie X1 Turbo, renforçant ainsi la concurrence. L'initiative d'Alibaba répond ainsi au succès de DeepSeek dans la création de modèles d'IA efficaces à des prix moins élevés, ce qui remet en cause la domination des leaders occidentaux tels que Google et OpenAI.

Qwen 3 est open-source, avec des modèles disponibles sur des plateformes telles que Hugging Face et GitHub. Cette initiative devrait encourager la participation de la communauté et aider les développeurs à l'adopter plus rapidement. Les analystes considèrent qu'il s'agit d'une mesure forte prise par Alibaba pour concurrencer les modèles américains et renforcer son rôle dans le domaine de l'IA à l'échelle mondiale.


Implications pour le secteur de l'IA

L'introduction du Qwen 3 et d'autres modèles d'IA chinois témoigne des progrès rapides de la Chine en matière de recherche et de développement dans le domaine de l'IA, soutenus à la fois par le gouvernement et par l'innovation privée. La concurrence incite les laboratoires de recherche américains à améliorer leurs technologies d'IA et a suscité des discussions sur la limitation de l'accès des entreprises chinoises à d'importants outils d'IA, tels que les puces haut de gamme.

Alors qu'Alibaba continue d'investir dans l'IA, l'accent mis sur les modèles ouverts et les compétences de raisonnement avancées lui permet de répondre au besoin croissant de solutions d'IA dans diverses industries. Les performances de Qwen 3 seront suivies de près, non seulement pour leur impact sur les actions d'Alibaba, mais aussi pour leurs effets sur le marché mondial de l'IA.

Principales fonctionnalités de Qwen3

Qwen 3 est un grand modèle de langage qui combine les caractéristiques traditionnelles de l'IA avec des capacités de raisonnement avancées. Le modèle le plus performant compte 235 milliards de paramètres et utilise un mélange d'experts qui améliore l'efficacité.

Qwen 3 dispose en outre d'une fenêtre contextuelle native de 32 K, qui peut être étendue à 128 K avec YaRN. Il n'active que huit experts sur 128 par jeton, ce qui réduit le coût de l'inférence par rapport à des systèmes plus denses.

Modes de raisonnement hybrides

Les modèles Qwen3 introduisent un « mode raisonnement » qui permet aux développeurs de passer d'un raisonnement étape par étape pour les questions complexes à des réponses rapides pour les questions plus simples. Cette approche hybride de la résolution de problèmes rend Qwen 3 plus utile pour les développeurs.

Les modèles Qwen3 prennent en charge deux modes :

  1. Le mode raisonnement : Dans ce mode, le modèle prend le temps de raisonner étape par étape avant de fournir la réponse finale. Ce mode est idéal pour les problèmes complexes qui nécessitent un raisonnement plus approfondi.
  2. Mode sans raisonnement : Dans ce mode, le modèle fournit des réponses rapides, presque instantanées, qui conviennent aux questions plus simples pour lesquelles la rapidité est plus importante que la profondeur.

Cette flexibilité permet aux utilisateurs de contrôler le degré de « raisonnement » effectué par le modèle en fonction de la tâche à accomplir. Par exemple, les problèmes les plus difficiles peuvent être abordés par un raisonnement approfondi, tandis que les plus simples peuvent recevoir une réponse directe sans délai. L'intégration de ces deux modes améliore considérablement la capacité du modèle à mettre en œuvre un contrôle stable et efficace du budget de raisonnement. Qwen3 présente des améliorations de performance évolutives et régulières qui sont directement corrélées au budget de raisonnement informatique alloué. Cette conception permet aux utilisateurs de configurer plus facilement des budgets spécifiques à une tâche, ce qui permet d'atteindre un équilibre plus optimal entre la rentabilité et la qualité de l'inférence.


Prise en charge multilingue

Les modèles Qwen3 prennent en charge 119 langues et dialectes, dont le français. Cette capacité multilingue étendue ouvre de nouvelles possibilités pour les applications internationales, permettant aux utilisateurs du monde entier de bénéficier de la puissance de ces modèles.

Capacités agentiques améliorées

Alibaba a optimisé les modèles Qwen3 pour le codage et les capacités agentiques, et a également renforcé la prise en charge du MCP. Des exemples sont donnés ci-dessous pour montrer comment Qwen3 raisonne et interagit avec l'environnement.


Performances de Qwen3 sur les principaux benchmarks

Le modèle phare d'Alibaba, Qwen3-235B-A22B, obtient des résultats compétitifs dans les évaluations comparatives du codage, des mathématiques, des capacités générales, etc., par rapport à d'autres modèles de premier plan tels que DeepSeek-R1, o1, o3-mini, Grok-3 et Gemini-2.5-Pro. En outre, le petit modèle MoE, Qwen3-30B-A3B, surpasse QwQ-32B avec 10 fois plus de paramètres activés, et même un petit modèle comme Qwen3-4B peut rivaliser avec les performances de Qwen2.5-72B-Instruct.



Alibaba a mis en place une pondération ouverte pour deux modèles MoE : Qwen3-235B-A22B, un grand modèle avec 235 milliards de paramètres totaux et 22 milliards de paramètres activés, et Qwen3-30B-A3B, un modèle MoE plus petit avec 30 milliards de paramètres totaux et 3 milliards de paramètres activés. En outre, six modèles denses sont également à pondération ouverte, notamment Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B et Qwen3-0.6B, sous licence Apache 2.0.


Les modèles post-entraînés, tels que Qwen3-30B-A3B, ainsi que leurs équivalents pré-entraînés (par exemple, Qwen3-30B-A3B-Base), sont désormais disponibles sur des plateformes telles que Hugging Face, ModelScope et Kaggle. Pour le déploiement, Alibaba recommande d'utiliser des frameworks tels que SGLang et vLLM. Pour une utilisation locale, des outils tels que Ollama, LMStudio, MLX, llama.cpp et KTransformers sont fortement recommandés. Ces options permettent aux utilisateurs d'intégrer facilement Qwen3 dans leurs flux de travail, que ce soit dans des environnements de recherche, de développement ou de production.

Citation Envoyé par Alibaba Group
Nous pensons que la publication et l'ouverture de Qwen3 feront progresser de manière significative la recherche et le développement de grands modèles de fondations. Notre objectif est de permettre aux chercheurs, aux développeurs et aux organisations du monde entier d'élaborer des solutions innovantes à l'aide de ces modèles de pointe.

Pré-entraînement

En termes de prétraînement, l'ensemble de données de Qwen3 a été considérablement élargi par rapport à Qwen2.5. Alors que Qwen2.5 a été pré-entraîné sur 18 mille milliards de tokens, Qwen3 utilise presque le double de cette quantité, avec environ 36 mille milliards de tokens couvrant 119 langues et dialectes. Pour constituer ce vaste ensemble de données, Alibaba a collecté des données non seulement sur le web, mais aussi dans des documents de type PDF. L'entreprise a utilisé Qwen2.5-VL pour extraire le texte de ces documents et Qwen2.5 pour améliorer la qualité du contenu extrait. Pour augmenter la quantité de données mathématiques et de code, Qwen2.5-Math et Qwen2.5-Coder ont été utilisés pour générer des données synthétiques. Celles-ci comprennent des manuels, des paires de questions-réponses et des extraits de code.

Le processus de pré-entraînement se compose de trois étapes. Au cours de la première étape (S1), le modèle a été pré-entraîné sur plus de 30 mille milliards de tokens avec une longueur de contexte de 4K tokens. Cette étape a permis au modèle d'acquérir des compétences linguistiques de base et des connaissances générales. Lors de la deuxième étape (S2), l'ensemble de données a été amélioré en augmentant la proportion de données à forte intensité de connaissances, telles que les tâches STEM, de codage et de raisonnement. Le modèle a ensuite été pré-entraîné sur 5 mille milliards de tokens supplémentaires. Lors de la dernière étape, des données de haute qualité sur les contextes longs ont été utilisées pour étendre la longueur du contexte à 32 000 tokens. Cela permet de s'assurer que le modèle peut traiter efficacement des entrées plus longues.


Grâce aux progrès de l'architecture du modèle, à l'augmentation des données d'entraînement et à des méthodes d'entraînement plus efficaces, les performances globales des modèles de base denses de Qwen3 correspondent à celles des modèles de base de Qwen2.5 avec un plus grand nombre de paramètres. Par exemple, Qwen3-1.7B/4B/8B/14B/32B-Base est aussi performant que Qwen2.5-3B/7B/14B/32B/72B-Base, respectivement. Notamment, dans des domaines tels que les STEM, le codage et le raisonnement, les modèles de base denses Qwen3 sont même plus performants que les modèles Qwen2.5 plus volumineux. Les modèles de base Qwen3-MoE atteignent des performances similaires à celles des modèles de base denses Qwen2.5 tout en n'utilisant que 10 % des paramètres actifs. Il en résulte des économies significatives en termes de coûts de formation et d'inférence.

Post-entraînement

Pour développer le modèle hybride capable de raisonner étape par étape et de réagir rapidement, Alibaba a mis en place un processus de formation en quatre étapes. Ce pipeline comprend : (1) le démarrage à froid d'une longue chaîne de pensée (CoT), (2) l'apprentissage par renforcement (RL) basé sur le raisonnement, (3) la fusion des modes de raisonnement et (4) le RL général.


Au cours de la première étape, Alibaba a affiné les modèles en utilisant diverses données de longue chaîne de pensée, couvrant diverses tâches et domaines tels que les mathématiques, le codage, le raisonnement logique et les problèmes STEM. Ce processus visait à doter le modèle de capacités de raisonnement fondamentales. La deuxième étape s'est concentrée sur l'augmentation des ressources informatiques pour le RL, en utilisant des récompenses basées sur des règles pour améliorer les capacités d'exploration et d'exploitation du modèle.

Au cours de la troisième étape, les capacités de non-réflexion ont été intégrées au modèle de raisonnement en l'affinant sur la base d'une combinaison de données CoT longues et de données d'ajustement de l'instruction couramment utilisées. Ces données ont été générées par le modèle de raisonnement amélioré de la deuxième étape, garantissant un mélange homogène de capacités de raisonnement et de réaction rapide. Enfin, au cours de la quatrième étape, Alibaba a appliqué le RL à plus de 20 tâches du domaine général afin de renforcer les capacités générales du modèle et de corriger les comportements indésirables. Ces tâches comprenaient le suivi des instructions, le respect des formats, les capacités des agents, etc.

Développement avec Qwen3

Ci-dessous se trouve un guide simple pour utiliser Qwen3 sur différents frameworks. Un exemple standard d'utilisation de Qwen3-30B-A3B dans les transformateurs Hugging Face est tout d'abord fourni :

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
from modelscope import AutoModelForCausalLM, AutoTokenizer 
 
model_name = "Qwen/Qwen3-30B-A3B" 
 
# load the tokenizer and the model 
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalLM.from_pretrained( 
    model_name, 
    torch_dtype="auto", 
    device_map="auto" 
) 
 
# prepare the model input 
prompt = "Give me a short introduction to large language model." 
messages = [ 
    {"role": "user", "content": prompt} 
] 
text = tokenizer.apply_chat_template( 
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True. 
) 
model_inputs = tokenizer([text], return_tensors="pt").to(model.device) 
 
# conduct text completion 
generated_ids = model.generate( 
    **model_inputs, 
    max_new_tokens=32768 
) 
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()  
 
# parsing thinking content 
try: 
    # rindex finding 151668 (</think>) 
    index = len(output_ids) - output_ids[::-1].index(151668) 
except ValueError: 
    index = 0 
 
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n") 
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n") 
 
print("thinking content:", thinking_content) 
print("content:", content)

Pour désactiver le raisonnement, il suffit de modifier l'argument enable_thinking comme suit :

Code : Sélectionner tout
1
2
3
4
5
6
text = tokenizer.apply_chat_template( 
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=False  # True is the default value for enable_thinking. 
)

Pour le déploiement, il est possible d'utiliser sglang>=0.4.6.post1 ou vllm>=0.8.4 pour créer un point de terminaison d'API compatible avec OpenAI :

SGLang :

Code : Sélectionner tout
python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM :

Code : Sélectionner tout
vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

Si un utilisateur souhaite l'utiliser pour le développement local, il peut utiliser ollama en lançant une simple commande ollama run qwen3:30b-a3b pour jouer avec le modèle, ou il peut utiliser LMStudio ou llama.cpp et ktransformers pour construire localement.

Utilisations avancées

Alibaba fournit un mécanisme de commutation souple qui permet aux utilisateurs de contrôler dynamiquement le comportement du modèle lorsque enable_thinking=True. Plus précisément, l'utilisateur peut ajouter /think et /no_think aux invites ou aux messages du système pour changer le mode de raisonnement du modèle d'un tour à l'autre. Le modèle suivra l'instruction la plus récente dans les conversations à plusieurs tours.

Voici un exemple de conversation multi-tour :

[CODE]from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
def __init__(self, model_name="Qwen/Qwen3-30B-A3B"):
self.tokenizer = AutoTokenizer.from_pretrained(model_name)
self.model = AutoModelForCausalLM.from_pretrained(model_name)
self.history = []

def generate_response(self, user_input):
messages = self.history + [{[/]...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !