
Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent. Alibaba lance également un modèle de reconnaissance vocale automatique (ASR) Qwen3 pour diverses charges de travail IA. Qwen3-Max est disponible en avant-première. Les derniers modèles d'Alibaba présentent des innovations architecturales conçues pour maximiser les performances tout en minimisant les coûts de calcul.
Alibaba Group est une multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et les technologies. Alibaba Cloud, filiale du groupe Alibaba spécialisée dans le cloud computing, a développé Qwen, une famille de grands modèles de langage (LLM). En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.
Février dernier, le PDG Eddie Wu a communiqué les derniers résultats du groupe Alibaba pour le trimestre écoulé, décrivant l'IA comme une opportunité « unique ». Puis il a annoncé que le groupe prévoit d'investir 53 milliards de dollars dans l'intelligence artificielle (IA) et le cloud computing au cours des trois prochaines années. Cet investissement marque un tournant majeur dans l'histoire de la marque, car la somme dépasse le total de ses dépenses en matière d'IA et de cloud au cours de la dernière décennie.
Dans sa quête de l'intelligence artificielle générale (AGI), Alibaba a récemment lancé Qwen3-Next, une toute nouvelle architecture de modèle optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent. Grâce à une série d'innovations architecturales, notamment un mécanisme d'attention hybride et une architecture Mixture of Expert (MoE) très clairsemée, Qwen3-Next offre des performances remarquables tout en minimisant les coûts de calcul.
Le premier modèle doté de cette architecture novatrice, Qwen3-Next-80B-A3B-Base, est un modèle à 80 milliards de paramètres qui n'active que 3 milliards de paramètres pendant l'inférence. Les modes Instruct (sans réflexion) et Thinking sont désormais open source et disponibles sur Hugging Face, Kaggle et la communauté ModelScope d'Alibaba Cloud.
Il est à noter que Qwen3-Next-80B-A3B-Base surpasse le modèle dense Qwen3-32B, tout en utilisant moins de 10 % de son coût de formation (mesuré en heures GPU). Lors de l'inférence, il offre un débit plus de 10 fois supérieur à celui de Qwen3-32B lorsqu'il traite des longueurs de contexte supérieures à 32 000 tokens, atteignant ainsi une efficacité suprême tant en matière de formation que d'inférence.
Le modèle Qwen3-Next-80B-A3B-Instruct égale les performances du modèle phare d'Alibaba, Qwen3-235B-A22B-Instruct-2507, tout en excellant dans les scénarios à contexte ultra-long. Il prend en charge nativement une fenêtre de contexte de 256 000 tokens, extensible jusqu'à 1 million de tokens. Le modèle Qwen3-Next-80B-A3B-Thinking excelle dans les tâches de raisonnement complexes, surpassant même un modèle de réflexion open source de premier plan dans plusieurs benchmarks, et se rapprochant des performances du modèle de réflexion phare Qwen3-235B-A22B-Thinking-2507.
Ces performances élevées et cette efficacité sont rendues possibles grâce à des innovations architecturales, notamment l'attention hybride, qui remplace l'attention standard par la combinaison de Gated DeltaNet et Gated Attention, améliorant ainsi la capacité d'apprentissage en contexte tout en optimisant l'efficacité computationnelle ; La conception MoE ultra-claire, qui n'active que 3,7 % des paramètres (3 milliards sur 80 milliards) par étape d'inférence, ce qui réduit considérablement le coût de calcul sans sacrifier la qualité du modèle ; et la prédiction multi-jetons (MTP), qui améliore à la fois les performances du modèle et l'efficacité de l'inférence. Il a également développé des optimisations favorisant la stabilité de la formation, qui permettent un fonctionnement plus fluide des modèles à grande échelle.
Alors que l'augmentation de la longueur du contexte et du nombre total de paramètres apparaît comme une tendance majeure dans le développement de modèles à grande échelle, l'innovation de Qwen3-Next marque une avancée significative dans l'architecture des modèles, notamment grâce à l'attention linéaire et à la porte d'attention, ainsi qu'à la raréfaction accrue de sa conception MoE. Entraîné sur un sous-ensemble de 15 000 milliards de tokens du corpus de pré-entraînement de 36 000 milliards de tokens de Qwen3, Qwen3-Next est optimisé pour un déploiement et un fonctionnement efficaces sur du matériel grand public.
Voici un extrait de l'annonce de Qwen3-Next :
Architecture hybride : Gated DeltaNet + Gated Attention
L'attention linéaire rompt avec la complexité quadratique de l'attention standard et est plus efficace pour les contextes longs. Cependant, nous constatons que l'utilisation exclusive de l'attention linéaire ou de l'attention standard présente des limites : l'attention linéaire est rapide mais faible en termes de rappel ; l'attention standard est coûteuse et lente pendant l'inférence.
Grâce à des expériences systématiques, nous avons constaté que Gated DeltaNet offre une capacité d'apprentissage contextuel plus forte que les méthodes couramment utilisées telles que Sliding Window Attention ou Mamba2. Lorsque nous combinons Gated DeltaNet et l'attention standard dans un rapport de 3:1 (75 % des couches utilisent Gated DeltaNet, 25 % conservent l'attention standard), le modèle surpasse systématiquement toute architecture monolithique, offrant à la fois de meilleures performances et une plus grande efficacité.
Dans les couches d'attention standard, nous ajoutons plusieurs améliorations :
- Adoption du mécanisme de contrôle de sortie issu de nos travaux antérieurs afin de réduire les problèmes de rang faible dans l'attention.
- Augmentation de la dimension par tête d'attention de 128 à 256.
- Application du codage de position rotatif uniquement aux 25 % premiers des dimensions de position, améliorant ainsi l'extrapolation à des séquences plus longues.
MoE ultra-clairsemé : activation de seulement 3,7 % des paramètres
Qwen3-Next utilise une conception MoE très clairsemée : 80 milliards de paramètres au total, mais seulement environ 3 milliards activés par étape d'inférence. Les expériences montrent qu'avec l'équilibrage global de la charge, l'augmentation du nombre total de paramètres experts tout en maintenant les experts activés fixes réduit régulièrement la perte d'entraînement.
Par rapport au MoE de Qwen3 (128 experts au total, 8 routés), Qwen3-Next passe à 512 experts au total, combinant 10 experts routés + 1 expert partagé, ce qui maximise l'utilisation des ressources sans nuire aux performances.
Conceptions favorables à la stabilité de l'entraînement
Nous avons constaté que le mécanisme de contrôle de la sortie de l'attention aide à éliminer des problèmes tels que l'Attention Sink et l'activation massive, garantissant ainsi la stabilité numérique du modèle.
Dans Qwen3, nous utilisons QK-Norm, mais nous avons remarqué que certains poids de norme de couche deviennent anormalement élevés. Pour corriger cela et améliorer encore la stabilité, Qwen3-Next adopte RMSNorm centré sur zéro et applique une décroissance de poids aux poids de norme afin d'empêcher une croissance illimitée.
Nous normalisons également les paramètres du routeur MoE lors de l'initialisation, ce qui garantit que chaque expert est sélectionné de manière impartiale dès le début de l'entraînement, réduisant ainsi le bruit provenant de l'initialisation aléatoire.
Ces conceptions axées sur la stabilité rendent les expériences à petite échelle plus fiables et contribuent au bon déroulement des entraînements à grande échelle.
Prédiction multi-jetons
Qwen3-Next introduit un mécanisme natif de prédiction multi-jetons (MTP), qui non seulement produit un module MTP avec un taux d'acceptation élevé pour le décodage spéculatif, mais améliore également les performances globales. De plus, Qwen3-Next optimise spécifiquement les performances d'inférence en plusieurs étapes du MTP, améliorant encore le taux d'acceptation du décodage spéculatif dans des scénarios réels grâce à un entraînement en plusieurs étapes qui maintient la cohérence entre l'entraînement et l'inférence.
Qwen3-ASR-Flash : un outil de transcription vocale IA compétitif
Alibaba a également lancé Qwen3-ASR-Flash, un modèle de reconnaissance vocale automatique (ASR) de pointe alimenté par l'intelligence multimodale de Qwen3-Omni et formé sur des dizaines de millions d'heures de données vocales multilingues de haute qualité. Le modèle est désormais accessible aux développeurs via les API de la plateforme d'IA générative Model Studio d'Alibaba Cloud. Il peut également être testé sur Hugging Face et la communauté ModelScope d'Alibaba.
Qwen3-ASR-Flash offre une précision et une robustesse dans 11 langues principales, dont l'anglais, le chinois, le français, l'allemand, l'italien, l'espagnol, le portugais, le japonais, le coréen, l'arabe et le russe. Il prend également en charge plusieurs dialectes chinois, notamment le sichuanais, le minnan (hokkien), le wu et le cantonais, ainsi qu'un large éventail d'accents régionaux anglais, ce qui lui confère une plus grande adaptabilité régionale.
Il surpasse les principaux modèles ASR sur les principaux benchmarks du secteur, ce qui en fait un outil de transcription vocale IA compétitif. Il est notamment capable de transcrire avec précision les paroles de chansons, même en présence d'une musique de fond forte, une tâche difficile pour la plupart des modèles vocaux. Dans des environnements acoustiques bruyants ou complexes, Qwen3-ASR-Flash excelle dans l'isolation de la parole humaine tout en filtrant intelligemment les éléments non vocaux tels que le silence et le bruit de fond.
Pour permettre une transcription contextuelle, les utilisateurs peuvent fournir des invites personnalisées dans différents formats, tels que des listes de mots-clés, des paragraphes, des documents complets ou même du texte non structuré ou absurde, ce qui permet au modèle d'adapter plus précisément ses résultats à des domaines ou des cas d'utilisation spécifiques. Grâce à sa précision multilingue et à sa résilience dans des conditions acoustiques difficiles, Qwen3-ASR-Flash est idéal pour diverses applications, de la transcription de conférences en ligne et d'émissions en direct à l'analyse d'archives audio complexes à des fins de recherche, de médias ou d'entreprise.
Aperçu de Qwen3-Max : le plus grand modèle non pensant d'Alibaba
Alibaba a également présenté Qwen3-Max, le plus grand modèle « non pensant » de la série Qwen3, avec plus de mille milliards de paramètres. Classé n° 6 dans Text Arena, un classement reconnu pour la polyvalence, la précision linguistique et le contexte culturel des LLM dans les textes, Qwen3-Max-Preview suit des instructions complexes en chinois et en anglais avec une plus grande fiabilité. Par rapport à la série Qwen2.5 précédente, Qwen3-Max-Preview réduit considérablement les hallucinations et génère des réponses de meilleure qualité pour les questions-réponses ouvertes, l'écriture et les conversations. Il offre également une grande précision en mathématiques, en codage, en logique et en raisonnement scientifique.
Le modèle prend en charge plus de 100 langues, avec des capacités améliorées en matière de traduction et de raisonnement de bon sens. Il est également optimisé pour les flux de travail avancés, notamment la génération augmentée par la récupération (RAG) et l'appel d'outils, ce qui le rend idéal pour différentes charges de travail d'IA.
Qwen3-Max-Preview est désormais accessible aux utilisateurs du monde entier via Qwen Chat et Model Studio d'Alibaba Cloud.
Cette annonce intervient alors que les experts s'inquiètent de plus en plus de l'empreinte carbone de l'IA générative. Les systèmes d'IA nécessitent d'énormes quantités d'énergie et d'eau pour être construits et fonctionner. Et une fois déployés, ils peuvent émettre plusieurs tonnes de dioxyde de carbone (CO2) par jour. La chercheuse en IA Sasha Luccioni a déclaré que « l'IA générative accélère la crise climatique », ajoutant qu'il est particulièrement décevant que les gens utilisent l'IA pour faire des recherches sur Internet. Elle avertit que l'IA générative consomme 30 fois plus d'énergie qu'un moteur de recherche, ce qui constitue un danger pour l'environnement.
Source : Annonce de Qwen3-Next
Et vous ?


Voir aussi :



Vous avez lu gratuitement 588 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.