Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres

Affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent

Le 17 février 2026 à 14:15, par Alex

112PARTAGES

Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres, affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent

Alibaba a officiellement lancé Qwen3.5, rendant le modèle ouvert Qwen3.5-397B-A17B disponible pour la recherche et le développement. En tant que modèle natif de vision-langage, Qwen3.5-397B-A17B affiche d'excellents résultats dans les benchmarks, notamment en matière de raisonnement, de codage, de capacités d'agent et de compréhension multimodale. Sur cette base, le modèle introduit une architecture hybride innovante qui combine l'attention linéaire via des réseaux Gated Delta avec un système de mélange d'experts clairsemé.

Alibaba Cloud est une société de cloud computing, filiale du groupe Alibaba. Alibaba Cloud fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Alibaba Cloud propose des services cloud disponibles sur la base d'un paiement à l'utilisation, notamment des services de calcul élastique, de stockage de données, de bases de données relationnelles, de traitement de mégadonnées, de protection contre les attaques DDoS et de réseaux de diffusion de contenu (CDN). Alibaba Cloud a également développé la famille de grands modèles de langage Qwen.

Alibaba a officiellement lancé Qwen3.5, rendant le modèle ouvert Qwen3.5-397B-A17B disponible pour la recherche et le développement. En tant que modèle natif de vision-langage, Qwen3.5-397B-A17B affiche d'excellents résultats dans les benchmarks, notamment en matière de raisonnement, de codage, de capacités d'agent et de compréhension multimodale. Sur cette base, le modèle introduit une architecture hybride innovante qui combine l'attention linéaire via des réseaux Gated Delta avec un système de mélange d'experts clairsemé. Bien que le modèle contienne au total 397 milliards de paramètres, seuls 17 milliards sont actifs lors de chaque inférence, ce qui permet d'optimiser à la fois l'efficacité et les coûts de calcul sans réduire les capacités du modèle.

Parallèlement à ces avancées techniques, Qwen3.5 étend la prise en charge des langues et des dialectes de 119 à 201, offrant ainsi une meilleure accessibilité à une base d'utilisateurs mondiale plus large. Les gains de performance par rapport à la série Qwen3 proviennent d'une augmentation considérable de la mise à l'échelle des tâches d'apprentissage par renforcement et des environnements pris en charge. Qwen3.5 fait encore progresser le pré-entraînement, en mettant l'accent sur la puissance, l'efficacité et la polyvalence.

Ces améliorations sont facilitées par une infrastructure hétérogène qui sépare les approches de parallélisme pour les composants de vision et de langage, ce qui permet d'éviter les inefficacités observées dans les systèmes unifiés. Les utilisateurs peuvent désormais accéder à Qwen3.5 via Qwen Chat avec les modes auto, réflexion et rapide, et essayer le modèle phare Qwen3.5-Plus via Alibaba Cloud ModelStudio.

Performances de Qwen 3.5

Voici les principales performances de Qwen 3.5 :

Par rapport à la série Qwen 3, les gains de performance post-entraînement de Qwen 3.5 proviennent principalement de la mise à l'échelle extensive de pratiquement toutes les tâches et tous les environnements RL conçus. L'approche de l'équipe de Qwen a mis l'accent sur l'augmentation de la difficulté et de la généralisation des environnements RL, plutôt que sur l'optimisation de métriques spécifiques ou de catégories étroites de requêtes.

Voici les améliorations des capacités générales des agents résultant de cette mise à l'échelle de l'environnement RL. Les performances globales sont calculées en faisant la moyenne du classement de chaque modèle sur les benchmarks suivants : BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon et MCP-Mark. Les résultats supplémentaires de la mise à l'échelle sur un éventail plus large de tâches seront détaillés dans notre prochain rapport technique.

Pré-entraînement

Qwen3.5 fait progresser le pré-entraînement dans trois dimensions : puissance, efficacité et polyvalence.

- Puissance : entraîné sur une échelle de tokens visuels et textuels nettement plus grande que Qwen3, avec des données enrichies en chinois/anglais, multilingues, STEM et de raisonnement soumises à un filtrage plus strict. Cela permet une parité intergénérationnelle : Qwen3.5-397B-A17B correspond au Qwen3-Max-Base à plus de 1 T de paramètres.

- Efficacité : basé sur l'architecture Qwen3-Next : MoE à plus grande parcimonie, attention hybride Gated DeltaNet + Gated Attention, optimisations de la stabilité et prédiction multi-tokens. Avec une longueur de contexte de 32k/256k, le débit de décodage de Qwen3.5-397B-A17B est 8,6 fois/19,0 fois supérieur à celui de Qwen3-Max, et les performances sont comparables. Le débit de décodage de Qwen3.5-397B-A17B est 3,5 fois/7,2 fois supérieur à celui de Qwen3-235B-A22B.

- Polyvalence : multimodal nativement grâce à la fusion précoce du texte et de la vision et à l'expansion des données visuelles/STEM/vidéo, surpassant Qwen3-VL à des échelles similaires. La couverture multilingue passe de 119 à 201 langues/dialectes ; un vocabulaire de 250 000 mots (contre 150 000) augmente l'efficacité de l'encodage/décodage de 10 à 60 % dans la plupart des langues.

Infrastructure

Qwen3.5 permet un entraînement multimodal natif efficace grâce à une infrastructure hétérogène qui découple les stratégies de parallélisme entre les composants visuels et linguistiques, évitant ainsi les inefficacités des approches uniformes. En exploitant les activations clairsemées pour le chevauchement des calculs entre les composants, il atteint un débit d'entraînement proche de 100 % par rapport aux références en texte pur sur des données mixtes texte-image-vidéo.

En complément, un pipeline FP8 natif applique une faible précision aux activations, au routage MoE et aux opérations GEMM, avec une surveillance en temps réel préservant le BF16 dans les couches sensibles, ce qui permet une réduction d'environ 50 % de la mémoire d'activation et une accélération de plus de 10 %, tout en s'adaptant de manière stable à des dizaines de billions de tokens.

Afin de libérer en permanence la puissance de l'apprentissage par renforcement, nous avons construit un cadre RL asynchrone et évolutif qui prend en charge les modèles Qwen3.5 de toutes tailles, couvrant les paramètres texte, multimodaux et multi-tours. En adoptant une architecture d'entraînement-inférence entièrement désagrégée, le cadre permet une utilisation nettement améliorée du matériel, un équilibrage dynamique de la charge et une récupération fine des pannes. Il optimise en outre le débit et améliore la cohérence entre l'entraînement et l'inférence grâce à des techniques telles que l'entraînement de bout en bout FP8, la relecture du routeur de déploiement, le décodage spéculatif et le verrouillage de déploiement multi-tours.

Grâce à une conception conjointe étroite du système et de l'algorithme, le cadre limite efficacement la stagnation des gradients et atténue l'asymétrie des données, préservant ainsi la stabilité et les performances de l'entraînement. De plus, il prend en charge nativement les flux de travail agentiques, facilitant les interactions multi-tours transparentes sans interruptions induites par le cadre. Cette conception découplée permet au système de s'adapter à des échafaudages et des environnements d'agents à l'échelle du million, ce qui améliore considérablement la généralisation du modèle. Collectivement, ces optimisations permettent un gain de vitesse de bout en bout de 3 à 5 fois supérieur, démontrant une stabilité, une efficacité et une évolutivité supérieures.

Cette annonce intervient dans un contexte où les modèles chinois open source gagnent de plus en plus de popularité. Les modèles d'intelligence artificielle (IA) open source chinois ont considérablement étendu leur présence à l'échelle mondiale, leur taux d'adoption passant de 13 % à près de 30 % de l'utilisation totale en 2025, principalement grâce à Qwen et DeepSeek. Cette tendance a été documentée dans le rapport "State of AI" d'OpenRouter, qui a analysé plus de 100 000 milliards de jetons sur plus de 300 modèles, révélant ainsi le passage d'une domination propriétaire à une concurrence pluraliste et open source à l'échelle mondiale.

Source : Annonce de Qwen 3.5

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Alibaba dévoile la dernière version de son modèle d'IA Qwen3-Max-Thinking pour concurrencer les meilleurs modèles d'IA tels que GPT 5.2-Thinking, Claude Opus 4.5 et Gemini 3 Pro

Anthropic lance son dernier modèle d'IA de « vibe working », Claude Opus 4.6, qui est présenté comme plus performant en matière de codage et capable de produire un travail professionnel de meilleure qualité

Plus fort que ChatGPT-5 d'OpenAI et Claude 4.5 d'Anthropic ? La Chine lance Kimi K2.5 et Kimi Code en open source et mise sur « Parallel Agent Swarm » pour orchestrer un essaim de 100 IA spécialisées

Vous avez lu gratuitement 28 896 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres

Affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres Affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent

Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres

Affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent