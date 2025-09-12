Adoption du mécanisme de contrôle de sortie issu de nos travaux antérieurs afin de réduire les problèmes de rang faible dans l'attention. Augmentation de la dimension par tête d'attention de 128 à 256. Application du codage de position rotatif uniquement aux 25 % premiers des dimensions de position, améliorant ainsi l'extrapolation à des séquences plus longues.

L'attention linéaire rompt avec la complexité quadratique de l'attention standard et est plus efficace pour les contextes longs. Cependant, nous constatons que l'utilisation exclusive de l'attention linéaire ou de l'attention standard présente des limites : l'attention linéaire est rapide mais faible en termes de rappel ; l'attention standard est coûteuse et lente pendant l'inférence.Grâce à des expériences systématiques, nous avons constaté que Gated DeltaNet offre une capacité d'apprentissage contextuel plus forte que les méthodes couramment utilisées telles que Sliding Window Attention ou Mamba2. Lorsque nous combinons Gated DeltaNet et l'attention standard dans un rapport de 3:1 (75 % des couches utilisent Gated DeltaNet, 25 % conservent l'attention standard), le modèle surpasse systématiquement toute architecture monolithique, offrant à la fois de meilleures performances et une plus grande efficacité.Dans les couches d'attention standard, nous ajoutons plusieurs améliorations :Qwen3-Next utilise une conception MoE très clairsemée : 80 milliards de paramètres au total, mais seulement environ 3 milliards activés par étape d'inférence. Les expériences montrent qu'avec l'équilibrage global de la charge, l'augmentation du nombre total de paramètres experts tout en maintenant les experts activés fixes réduit régulièrement la perte d'entraînement.Par rapport au MoE de Qwen3 (128 experts au total, 8 routés), Qwen3-Next passe à 512 experts au total, combinant 10 experts routés + 1 expert partagé, ce qui maximise l'utilisation des ressources sans nuire aux performances.Nous avons constaté que le mécanisme de contrôle de la sortie de l'attention aide à éliminer des problèmes tels que l'Attention Sink et l'activation massive, garantissant ainsi la stabilité numérique du modèle.Dans Qwen3, nous utilisons QK-Norm, mais nous avons remarqué que certains poids de norme de couche deviennent anormalement élevés. Pour corriger cela et améliorer encore la stabilité, Qwen3-Next adopte RMSNorm centré sur zéro et applique une décroissance de poids aux poids de norme afin d'empêcher une croissance illimitée.Nous normalisons également les paramètres du routeur MoE lors de l'initialisation, ce qui garantit que chaque expert est sélectionné de manière impartiale dès le début de l'entraînement, réduisant ainsi le bruit provenant de l'initialisation aléatoire.Ces conceptions axées sur la stabilité rendent les expériences à petite échelle plus fiables et contribuent au bon déroulement des entraînements à grande échelle.Qwen3-Next introduit un mécanisme natif de prédiction multi-jetons (MTP), qui non seulement produit un module MTP avec un taux d'acceptation élevé pour le décodage spéculatif, mais améliore également les performances globales. De plus, Qwen3-Next optimise spécifiquement les performances d'inférence en plusieurs étapes du MTP, améliorant encore le taux d'acceptation du décodage spéculatif dans des scénarios réels grâce à un entraînement en plusieurs étapes qui maintient la cohérence entre l'entraînement et l'inférence.