Alibaba a officiellement lancé Qwen3.5, rendant le modèle ouvert Qwen3.5-397B-A17B disponible pour la recherche et le développement. En tant que modèle natif de vision-langage, Qwen3.5-397B-A17B affiche d'excellents résultats dans les benchmarks, notamment en matière de raisonnement, de codage, de capacités d'agent et de compréhension multimodale. Sur cette base, le modèle introduit une architecture hybride innovante qui combine l'attention linéaire via des réseaux Gated Delta avec un système de mélange d'experts clairsemé. Bien que le modèle contienne au total 397 milliards de paramètres, seuls 17 milliards sont actifs lors de chaque inférence, ce qui permet d'optimiser à la fois l'efficacité et les coûts de calcul sans réduire les capacités du modèle.
Parallèlement à ces avancées techniques, Qwen3.5 étend la prise en charge des langues et des dialectes de 119 à 201, offrant ainsi une meilleure accessibilité à une base d'utilisateurs mondiale plus large. Les gains de performance par rapport à la série Qwen3 proviennent d'une augmentation considérable de la mise à l'échelle des tâches d'apprentissage par renforcement et des environnements pris en charge. Qwen3.5 fait encore progresser le pré-entraînement, en mettant l'accent sur la puissance, l'efficacité et la polyvalence.
Ces améliorations sont facilitées par une infrastructure hétérogène qui sépare les approches de parallélisme pour les composants de vision et de langage, ce qui permet d'éviter les inefficacités observées dans les systèmes unifiés. Les utilisateurs peuvent désormais accéder à Qwen3.5 via Qwen Chat avec les modes auto, réflexion et rapide, et essayer le modèle phare Qwen3.5-Plus via Alibaba Cloud ModelStudio.
Performances de Qwen 3.5
Voici les principales performances de Qwen 3.5 :
Par rapport à la série Qwen 3, les gains de performance post-entraînement de Qwen 3.5 proviennent principalement de la mise à l'échelle extensive de pratiquement toutes les tâches et tous les environnements RL conçus. L'approche de l'équipe de Qwen a mis l'accent sur l'augmentation de la difficulté et de la généralisation des environnements RL, plutôt que sur l'optimisation de métriques spécifiques ou de catégories étroites de requêtes.
Voici les améliorations des capacités générales des agents résultant de cette mise à l'échelle de l'environnement RL. Les performances globales sont calculées en faisant la moyenne du classement de chaque modèle sur les benchmarks suivants : BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon et MCP-Mark. Les résultats supplémentaires de la mise à l'échelle sur un éventail plus large de tâches seront détaillés dans notre prochain rapport technique.
Pré-entraînement
Qwen3.5 fait progresser le pré-entraînement dans trois dimensions : puissance, efficacité et polyvalence.
- Puissance : entraîné sur une échelle de tokens visuels et textuels nettement plus grande que Qwen3, avec des données enrichies en chinois/anglais, multilingues, STEM et de raisonnement soumises à un filtrage plus strict. Cela permet une parité intergénérationnelle : Qwen3.5-397B-A17B correspond au Qwen3-Max-Base à plus de 1 T de paramètres.
- Efficacité : basé sur l'architecture Qwen3-Next : MoE à plus grande parcimonie, attention hybride Gated DeltaNet + Gated Attention, optimisations de la stabilité et prédiction multi-tokens. Avec une longueur de contexte de 32k/256k, le débit de décodage de Qwen3.5-397B-A17B est 8,6 fois/19,0 fois supérieur à celui de Qwen3-Max, et les performances sont comparables. Le débit de décodage de Qwen3.5-397B-A17B est 3,5 fois/7,2 fois supérieur à celui de Qwen3-235B-A22B.
- Polyvalence : multimodal nativement grâce à la fusion précoce du texte et de la vision et à l'expansion des données visuelles/STEM/vidéo, surpassant Qwen3-VL à des échelles similaires. La couverture multilingue passe de 119 à 201 langues/dialectes ; un vocabulaire de 250 000 mots (contre 150 000) augmente l'efficacité de l'encodage/décodage de 10 à 60 % dans la plupart des langues.
Infrastructure
Qwen3.5 permet un entraînement multimodal natif efficace grâce à une infrastructure hétérogène qui découple les stratégies de parallélisme entre les composants visuels et linguistiques, évitant ainsi les inefficacités des approches uniformes. En exploitant les activations clairsemées pour le chevauchement des calculs entre les composants, il atteint un débit d'entraînement proche de 100 % par rapport aux références en texte pur sur des données mixtes texte-image-vidéo.
En complément, un pipeline FP8 natif applique une faible précision aux activations, au routage MoE et aux opérations GEMM, avec une surveillance en temps réel préservant le BF16 dans les couches sensibles, ce qui permet une réduction d'environ 50 % de la mémoire d'activation et une accélération de plus de 10 %, tout en s'adaptant de manière stable à des dizaines de billions de tokens.
Afin de libérer en permanence la puissance de l'apprentissage par renforcement, nous avons construit un cadre RL asynchrone et évolutif qui prend en charge les modèles Qwen3.5 de toutes tailles, couvrant les paramètres texte, multimodaux et multi-tours. En adoptant une architecture d'entraînement-inférence entièrement désagrégée, le cadre permet une utilisation nettement améliorée du matériel, un équilibrage dynamique de la charge et une récupération fine des pannes. Il optimise en outre le débit et améliore la cohérence entre l'entraînement et l'inférence grâce à des techniques telles que l'entraînement de bout en bout FP8, la relecture du routeur de déploiement, le décodage spéculatif et le verrouillage de déploiement multi-tours.
Grâce à une conception conjointe étroite du système et de l'algorithme, le cadre limite efficacement la stagnation des gradients et atténue l'asymétrie des données, préservant ainsi la stabilité et les performances de l'entraînement. De plus, il prend en charge nativement les flux de travail agentiques, facilitant les interactions multi-tours transparentes sans interruptions induites par le cadre. Cette conception découplée permet au système de s'adapter à des échafaudages et des environnements d'agents à l'échelle du million, ce qui améliore considérablement la généralisation du modèle. Collectivement, ces optimisations permettent un gain de vitesse de bout en bout de 3 à 5 fois supérieur, démontrant une stabilité, une efficacité et une évolutivité supérieures.
Cette annonce intervient dans un contexte où les modèles chinois open source gagnent de plus en plus de popularité. Les modèles d'intelligence artificielle (IA) open source chinois ont considérablement étendu leur présence à l'échelle mondiale, leur taux d'adoption passant de 13 % à près de 30 % de l'utilisation totale en 2025, principalement grâce à Qwen et DeepSeek. Cette tendance a été documentée dans le rapport "State of AI" d'OpenRouter, qui a analysé plus de 100 000 milliards de jetons sur plus de 300 modèles, révélant ainsi le passage d'une domination propriétaire à une concurrence pluraliste et open source à l'échelle mondiale.
Source : Annonce de Qwen 3.5
