Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent. Alibaba lance également un modèle de reconnaissance vocale automatique (ASR) Qwen3 pour diverses charges de travail IA. Qwen3-Max est disponible en avant-première. Les derniers modèles d'Alibaba présentent des innovations architecturales conçues pour maximiser les performances tout en minimisant les coûts de calcul.Alibaba Group est une multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et les technologies. Alibaba Cloud, filiale du groupe Alibaba spécialisée dans le cloud computing, a développé Qwen, une famille de grands modèles de langage (LLM). En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.
Février dernier, le PDG Eddie Wu a communiqué les derniers résultats du groupe Alibaba pour le trimestre écoulé, décrivant l'IA comme une opportunité « unique ». Puis il a annoncé que le groupe prévoit d'investir 53 milliards de dollars dans l'intelligence artificielle (IA) et le cloud computing au cours des trois prochaines années. Cet investissement marque un tournant majeur dans l'histoire de la marque, car la somme dépasse le total de ses dépenses en matière d'IA et de cloud au cours de la dernière décennie.
Dans sa quête de l'intelligence artificielle générale (AGI), Alibaba a récemment lancé Qwen3-Next, une toute nouvelle architecture de modèle optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent. Grâce à une série d'innovations architecturales, notamment un mécanisme d'attention hybride et une architecture Mixture of Expert (MoE) très clairsemée, Qwen3-Next offre des performances remarquables tout en minimisant les coûts de calcul.
Le premier modèle doté de cette architecture novatrice, Qwen3-Next-80B-A3B-Base, est un modèle à 80 milliards de paramètres qui n'active que 3 milliards de paramètres pendant l'inférence. Les modes Instruct (sans réflexion) et Thinking sont désormais open source et disponibles sur Hugging Face, Kaggle et la communauté ModelScope d'Alibaba Cloud.
Il est à noter que Qwen3-Next-80B-A3B-Base surpasse le modèle dense Qwen3-32B, tout en utilisant moins de 10 % de son coût de formation (mesuré en heures GPU). Lors de l'inférence, il offre un débit plus de 10 fois supérieur à celui de Qwen3-32B lorsqu'il traite des longueurs de contexte supérieures à 32 000 tokens, atteignant ainsi une efficacité suprême tant en matière de formation que d'inférence.
Le modèle Qwen3-Next-80B-A3B-Instruct égale les performances du modèle phare d'Alibaba, Qwen3-235B-A22B-Instruct-2507, tout en excellant dans les scénarios à contexte ultra-long. Il prend en charge nativement une fenêtre de contexte de 256 000 tokens, extensible jusqu'à 1 million de tokens. Le modèle Qwen3-Next-80B-A3B-Thinking excelle dans les tâches de raisonnement complexes, surpassant même un modèle de réflexion open source de premier plan dans plusieurs benchmarks, et se rapprochant des performances du modèle de réflexion phare Qwen3-235B-A22B-Thinking-2507.
Ces performances élevées et cette efficacité sont rendues possibles grâce à des innovations architecturales, notamment l'attention hybride, qui remplace l'attention standard par la combinaison de Gated DeltaNet et Gated Attention, améliorant ainsi la capacité d'apprentissage en contexte tout en optimisant l'efficacité computationnelle ; La conception MoE ultra-claire, qui n'active que 3,7 % des paramètres (3 milliards sur 80 milliards) par étape d'inférence, ce qui réduit considérablement le coût de calcul sans sacrifier la qualité du modèle ; et la prédiction multi-jetons (MTP), qui améliore à la fois les performances du modèle et l'efficacité de l'inférence. Il a également développé des optimisations favorisant la stabilité de la formation, qui permettent un fonctionnement plus fluide des modèles à grande échelle.
Alors que l'augmentation de la longueur du contexte et du nombre total de paramètres apparaît comme une tendance majeure dans le développement de modèles à grande échelle, l'innovation de Qwen3-Next marque une avancée significative dans l'architecture des modèles, notamment grâce à l'attention linéaire et à la porte d'attention, ainsi qu'à la raréfaction accrue de sa conception MoE. Entraîné sur un sous-ensemble de 15 000 milliards de tokens du corpus de pré-entraînement de 36 000 milliards de tokens de Qwen3, Qwen3-Next est optimisé pour un déploiement et un fonctionnement efficaces sur du matériel grand public.
Voici un extrait de l'annonce de Qwen3-Next :
[QUOTE]
Architecture hybride : Gated DeltaNet + Gated Attention
L'attention linéaire rompt avec la complexité quadratique de l'attention standard et est plus efficace pour les contextes longs. Cependant, nous constatons que l'utilisation exclusive de l'attention linéaire ou de l'attention standard présente des limites : l'attention linéaire est rapide mais faible en termes de rappel ; l'attention standard est coûteuse et lente pendant l'inférence.
Grâce à des expériences systématiques, nous avons constaté que Gated DeltaNet offre une capacité d'apprentissage contextuel plus forte que les méthodes couramment utilisées telles que Sliding Window Attention ou Mamba2. Lorsque nous combinons Gated DeltaNet et l'attention standard dans un rapport de 3:1 (75 % des couches utilisent Gated DeltaNet, 25 % conservent l'attention standard), le modèle surpasse systématiquement toute architecture monolithique, offrant à la fois de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.