Alibaba vient de frapper un grand coup dans le paysage de l'IA open source. Sorti le 22 avril 2026 sous licence Apache 2.0, le Qwen3.6-27B est un modèle dense de 27 milliards de paramètres qui surpasse sur les principaux benchmarks de codage agentique le Qwen3.5-397B-A17B, son propre prédécesseur et ancien fleuron open source, quatorze fois plus grand. Plus frappant encore : il tient dans moins de 17 gigaoctets de VRAM en quantisation Q4, ce qui le rend accessible à tout développeur équipé d'une carte graphique grand public récente. Le rapport performance/empreinte mémoire de ce modèle est sans précédent, et il change concrètement les conditions dans lesquelles on peut envisager de faire tourner un agent de codage en local.Depuis deux ans, la course aux grands modèles de langage a massivement favorisé l'architecture Mixture-of-Experts (MoE) : plutôt que d'activer l'ensemble d'un réseau à chaque inférence, ces modèles ne sollicitent qu'un sous-ensemble « d'experts » spécialisés, ce qui permet de gonfler spectaculairement le nombre total de paramètres sans augmenter proportionnellement le coût de calcul par token. Le Qwen3.5-397B-A17B en était un exemple canonique : 397 milliards de paramètres au total, mais seulement 17 milliards actifs à chaque passe. Résultat, en termes de calcul effectif, il se comportait comme un modèle d'environ 17 milliards. Le poids total en mémoire demeurait cependant considérable : 807 Go sur Hugging Face.
Le Qwen3.6-27B choisit une voie différente. Il s'agit d'un modèle dense, dans lequel tous les 27 milliards de paramètres sont activés à chaque passe, sans routage, sans experts latents dormants en mémoire. Ce choix a des implications pratiques immédiates : un modèle dense est structurellement plus simple à déployer localement, car son empreinte mémoire correspond exactement à la taille de ses poids. Pas de gestion d'experts partiellement chargés, pas de déséquilibre de charge entre GPU.
Mais Alibaba ne s'est pas contenté de revenir à une architecture conventionnelle. Le modèle repose sur une architecture hybride inédite : 64 couches organisées en blocs répétitifs de type 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN). Cela signifie que trois quarts des sous-couches d'attention utilisent un mécanisme de Gated DeltaNet, une forme d'attention linéaire, tandis que seulement un quart recourt à l'attention classique. L'attention linéaire, contrairement à l'attention quadratique traditionnelle, n'explose pas en coût de calcul à mesure que le contexte s'allonge : elle scale en O(n) plutôt qu'en O(n²), ce qui la rend significativement plus rapide et plus économe en mémoire pour les longues séquences.
Cette architecture hybride a également un effet direct sur le cache KV, qui stocke les états intermédiaires de l'attention pendant l'inférence. Les couches de Gated Attention utilisent seulement 4 têtes pour les clés et valeurs (KV) contre 24 pour les requêtes (Q), une configuration qui réduit considérablement la consommation mémoire du cache KV à l'inférence. C'est une des raisons pour lesquelles le modèle parvient à traiter efficacement de très longues fenêtres de contexte.
Des benchmarks qui renversent l'ordre établi
Sorti le 22 avril 2026 sous Apache 2.0, le modèle 27 milliards de paramètres affiche des scores de codage agentique qui surpassent le précédent fleuron Qwen3.5-397B-A17B sur plusieurs benchmarks, tout en tenant dans 16,8 Go en quantisation Q4_K_M (une technique de compression des modèles de langage) sur un seul GPU grand public.
Les chiffres publiés par Alibaba sont parlants : le modèle obtient 77,2 sur SWE-bench Verified, 59,3 sur Terminal-Bench 2.0, et 1 487 sur le benchmark interne QwenWebBench, reposant sur une architecture hybride Gated DeltaNet et Gated Attention répartie sur 64 couches. À titre de comparaison, le Qwen3.5-397B-A17B plafonnait à 76,2 sur SWE-bench Verified, 52,5 sur Terminal-Bench 2.0 et 30,0 sur SkillsBench, là où le nouveau venu atteint 48,2. Le saut est particulièrement brutal sur SkillsBench, qui mesure la capacité à accomplir des tâches de codage multi-étapes dans des environnements terminaux réels.
L'écart avec Claude 4.5 Opus se réduit à une poignée de points sur les benchmarks qui comptent pour les agents de codage. Sur Terminal-Bench 2.0, le 27B dense atteint exactement le score de Claude 4.5 Opus (59,3), tandis que sur GPQA Diamond il le dépasse légèrement (87,8 contre 87,0). Claude 4.5 Opus conserve l'avantage sur SWE-bench Verified (80,9) et SWE-bench Pro (57,1).
Il faut néanmoins mesurer ces chiffres avec précaution. La vérification indépendante sur des tâches de codage en production reste limitée au 23 avril 2026, et les benchmarks publiés par Alibaba utilisent son propre échafaudage d'agent interne. La communauté open source rappelle également, comme à chaque nouvelle sortie, d'attendre quelques jours avant de tirer des conclusions définitives : les premières semaines révèlent souvent des problèmes de configuration, des bugs dans les backends d'inférence, ou des comportements inattendus qui ne ressortent pas des benchmarks officiels.
Multimodalité, Thinking Preservation et fenêtre de 262 000 tokens
Au-delà de la performance brute en codage, le Qwen3.6-27B introduit plusieurs capacités qui méritent attention. Le modèle est nativement multimodal, supportant les entrées texte, image et vidéo (il a été entraîné avec un encodeur visuel lors des phases de pré-entraînement et de post-entraînement). Cette capacité multimodale native, sur un modèle de cette taille, ouvre des cas d'usage que les versions précédentes ne couvraient pas : analyser des captures d'écran d'interface, lire du code dans des images, ou traiter des vidéos de documentation technique directement en local.
La fenêtre de contexte native est de 262 144 tokens, extensible à 1 010 000 tokens via YaRN, une capacité qui change concrètement la donne pour les agents de codage qui doivent naviguer dans de grandes bases de code. Pour les tâches de type repository-level (comprendre l'intégralité d'un dépôt pour éditer plusieurs fichiers de manière cohérente), cette fenêtre de contexte est une condition pratiquement nécessaire.
Une autre nouveauté concerne le mécanisme de « Thinking Preservation ». Le modèle dispose d'un mode de raisonnement hybride (c'est-à-dire avec ou sans chaîne de pensée) dans un seul checkpoint, et introduit un mécanisme de préservation du raisonnement, une première dans l'open source. Dans la pratique, cela signifie que le modèle peut être configuré pour conserver et...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.