Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage, mais que valent vraiment ces chiffres avant la vérification indépendante ?

Le 23 avril 2026 à 18:33, par Stéphane le calme

64PARTAGES

Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage,
mais que valent vraiment ces chiffres avant la vérification indépendante ?

Alibaba vient de frapper un grand coup dans le paysage de l'IA open source. Sorti le 22 avril 2026 sous licence Apache 2.0, le Qwen3.6-27B est un modèle dense de 27 milliards de paramètres qui surpasse sur les principaux benchmarks de codage agentique le Qwen3.5-397B-A17B, son propre prédécesseur et ancien fleuron open source, quatorze fois plus grand. Plus frappant encore : il tient dans moins de 17 gigaoctets de VRAM en quantisation Q4, ce qui le rend accessible à tout développeur équipé d'une carte graphique grand public récente. Le rapport performance/empreinte mémoire de ce modèle est sans précédent, et il change concrètement les conditions dans lesquelles on peut envisager de faire tourner un agent de codage en local.

Depuis deux ans, la course aux grands modèles de langage a massivement favorisé l'architecture Mixture-of-Experts (MoE) : plutôt que d'activer l'ensemble d'un réseau à chaque inférence, ces modèles ne sollicitent qu'un sous-ensemble « d'experts » spécialisés, ce qui permet de gonfler spectaculairement le nombre total de paramètres sans augmenter proportionnellement le coût de calcul par token. Le Qwen3.5-397B-A17B en était un exemple canonique : 397 milliards de paramètres au total, mais seulement 17 milliards actifs à chaque passe. Résultat, en termes de calcul effectif, il se comportait comme un modèle d'environ 17 milliards. Le poids total en mémoire demeurait cependant considérable : 807 Go sur Hugging Face.

Le Qwen3.6-27B choisit une voie différente. Il s'agit d'un modèle dense, dans lequel tous les 27 milliards de paramètres sont activés à chaque passe, sans routage, sans experts latents dormants en mémoire. Ce choix a des implications pratiques immédiates : un modèle dense est structurellement plus simple à déployer localement, car son empreinte mémoire correspond exactement à la taille de ses poids. Pas de gestion d'experts partiellement chargés, pas de déséquilibre de charge entre GPU.

Mais Alibaba ne s'est pas contenté de revenir à une architecture conventionnelle. Le modèle repose sur une architecture hybride inédite : 64 couches organisées en blocs répétitifs de type 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN). Cela signifie que trois quarts des sous-couches d'attention utilisent un mécanisme de Gated DeltaNet, une forme d'attention linéaire, tandis que seulement un quart recourt à l'attention classique. L'attention linéaire, contrairement à l'attention quadratique traditionnelle, n'explose pas en coût de calcul à mesure que le contexte s'allonge : elle scale en O(n) plutôt qu'en O(n²), ce qui la rend significativement plus rapide et plus économe en mémoire pour les longues séquences.

Cette architecture hybride a également un effet direct sur le cache KV, qui stocke les états intermédiaires de l'attention pendant l'inférence. Les couches de Gated Attention utilisent seulement 4 têtes pour les clés et valeurs (KV) contre 24 pour les requêtes (Q), une configuration qui réduit considérablement la consommation mémoire du cache KV à l'inférence. C'est une des raisons pour lesquelles le modèle parvient à traiter efficacement de très longues fenêtres de contexte.

Des benchmarks qui renversent l'ordre établi

Sorti le 22 avril 2026 sous Apache 2.0, le modèle 27 milliards de paramètres affiche des scores de codage agentique qui surpassent le précédent fleuron Qwen3.5-397B-A17B sur plusieurs benchmarks, tout en tenant dans 16,8 Go en quantisation Q4_K_M (une technique de compression des modèles de langage) sur un seul GPU grand public.

Les chiffres publiés par Alibaba sont parlants : le modèle obtient 77,2 sur SWE-bench Verified, 59,3 sur Terminal-Bench 2.0, et 1 487 sur le benchmark interne QwenWebBench, reposant sur une architecture hybride Gated DeltaNet et Gated Attention répartie sur 64 couches. À titre de comparaison, le Qwen3.5-397B-A17B plafonnait à 76,2 sur SWE-bench Verified, 52,5 sur Terminal-Bench 2.0 et 30,0 sur SkillsBench, là où le nouveau venu atteint 48,2. Le saut est particulièrement brutal sur SkillsBench, qui mesure la capacité à accomplir des tâches de codage multi-étapes dans des environnements terminaux réels.

L'écart avec Claude 4.5 Opus se réduit à une poignée de points sur les benchmarks qui comptent pour les agents de codage. Sur Terminal-Bench 2.0, le 27B dense atteint exactement le score de Claude 4.5 Opus (59,3), tandis que sur GPQA Diamond il le dépasse légèrement (87,8 contre 87,0). Claude 4.5 Opus conserve l'avantage sur SWE-bench Verified (80,9) et SWE-bench Pro (57,1).

Il faut néanmoins mesurer ces chiffres avec précaution. La vérification indépendante sur des tâches de codage en production reste limitée au 23 avril 2026, et les benchmarks publiés par Alibaba utilisent son propre échafaudage d'agent interne. La communauté open source rappelle également, comme à chaque nouvelle sortie, d'attendre quelques jours avant de tirer des conclusions définitives : les premières semaines révèlent souvent des problèmes de configuration, des bugs dans les backends d'inférence, ou des comportements inattendus qui ne ressortent pas des benchmarks officiels.

Multimodalité, Thinking Preservation et fenêtre de 262 000 tokens

Au-delà de la performance brute en codage, le Qwen3.6-27B introduit plusieurs capacités qui méritent attention. Le modèle est nativement multimodal, supportant les entrées texte, image et vidéo (il a été entraîné avec un encodeur visuel lors des phases de pré-entraînement et de post-entraînement). Cette capacité multimodale native, sur un modèle de cette taille, ouvre des cas d'usage que les versions précédentes ne couvraient pas : analyser des captures d'écran d'interface, lire du code dans des images, ou traiter des vidéos de documentation technique directement en local.

La fenêtre de contexte native est de 262 144 tokens, extensible à 1 010 000 tokens via YaRN, une capacité qui change concrètement la donne pour les agents de codage qui doivent naviguer dans de grandes bases de code. Pour les tâches de type repository-level (comprendre l'intégralité d'un dépôt pour éditer plusieurs fichiers de manière cohérente), cette fenêtre de contexte est une condition pratiquement nécessaire.

Une autre nouveauté concerne le mécanisme de « Thinking Preservation ». Le modèle dispose d'un mode de raisonnement hybride (c'est-à-dire avec ou sans chaîne de pensée) dans un seul checkpoint, et introduit un mécanisme de préservation du raisonnement, une première dans l'open source. Dans la pratique, cela signifie que le modèle peut être configuré pour conserver et transmettre ses étapes de réflexion intermédiaires d'un tour à l'autre dans une conversation agentique, ce qui améliore la cohérence sur des tâches longues.

Enfin, le modèle intègre la Multi-Token Prediction (MTP) à l'entraînement. À l'inférence, cela permet le décodage spéculatif, le modèle génère simultanément plusieurs tokens candidats et les vérifie en parallèle, améliorant le débit sans compromettre la qualité.

La réalité matérielle : que faut-il pour le faire tourner ?

C'est probablement la question la plus pratique, et les réponses varient considérablement selon les configurations. En quantisation Q4_K_M, le modèle occupe environ 16,8 Go de mémoire, ce qui lui permet de tenir sur une RTX 4080 16 Go (serré) ou une RTX 4090 24 Go (à l'aise). En Q8, il faut compter environ 28,6 Go.

Pour les utilisateurs de Mac avec mémoire unifiée, un M5 Pro avec 128 Go de RAM n'en utilise que 20 Go pour ce modèle, avec des performances de 25 tokens par seconde en génération. Sur un Mac M4 avec 32 Go de RAM, le confort est plus limité : en Q4_K_M via llama-server, on obtient environ 5 tokens par seconde, ce qui reste utilisable mais peut devenir frustrant pour des tâches longues.

La situation sur les cartes NVIDIA grand public est meilleure pour les GPUs récents. Sur une AMD Radeon R9700 en quantisation 8 bits, on atteint environ 20 tokens par seconde. Sur un DGX Spark (le PC à puce Grace Blackwell de NVIDIA), le débit en FP8 sans optimisation tourne autour de 7,8 tokens par seconde, mais l'utilisation du décodage spéculatif par Multi-Token Prediction avec 3 tokens spéculatifs permet de monter à environ 15,2 tokens par seconde, un gain de près de 2x. Le calcul théorique explique le plafond : à FP8, chaque passe déplace environ 27 Go de paramètres avec une bande passante maximale de 270 Go/s, ce qui donne un plafond théorique d'environ 10 tokens par seconde.

Pour ceux qui espèrent une percée avec la quantisation NVFP4, le passage à NVFP4 ne déplacerait plus que 7 Go par passe, permettant théoriquement d'atteindre environ 38 tokens par seconde avec une perte de qualité minimale.

La communauté HN soulève par ailleurs un point rarement abordé dans les annonces officielles : le choix de la quantisation n'est pas anodin. La vraie difficulté pour les débutants est d'apprendre à distinguer entre « le modèle tourne » et « le modèle tourne avec une qualité et un contexte utilisables ». Les quantisations Q3 et inférieures permettent de faire tourner le fichier sur du matériel modeste, mais la dégradation sur les tâches longues devient significative. Un utilisateur signale par exemple que le modèle en Q4 sur une RTX 4090 peut maintenir un contexte de 50 000 à 60 000 tokens à une qualité acceptable.

Un avertissement pratique s'impose également : à la date du 23 avril 2026, Ollama ne supporte pas encore les fichiers mmproj séparés utilisés par Qwen 3.6 pour la vision. Les alternatives recommandées sont llama.cpp directement, LM Studio, vLLM en version 0.19.0 ou supérieure, ou SGLang en version 0.5.10 ou supérieure. Par ailleurs, un bug documenté avec CUDA 13.2 produit des sorties incohérentes sur ce modèle : il est conseillé de rester sur CUDA 13.1 ou 12.x en attendant un correctif de NVIDIA.

Tests en conditions réelles : un M3 Ultra et des jeux en 3D

Le youtuber Bijan Bowen (vidéo ci-dessous) a testé le modèle en conditions réelles sur un Mac Studio M3 Ultra avec 256 Go de RAM, une machine dont la puissance de calcul lui permettait de faire tourner le modèle en quantisation 8 bits via LM Studio et le framework MLX. Avec la fenêtre de contexte maximale (262 144 tokens), la vitesse de génération se situait autour de 21 tokens par seconde, un débit qu'il a maintenu sur l'ensemble de ses tests.

Le protocole de test était délibérément ambitieux : générer un système d'exploitation de navigateur complet avec au moins cinq applications fonctionnelles, dont deux jeux 3D, l'un d'eux devant être un clone de GTA. Le modèle a produit en un seul passage environ 3 500 lignes de code, avec un résultat jugé « parmi les meilleurs browser OS reçus », tous modèles confondus. Le clone GTA comportait des animations de marche, des véhicules dotés de collisions, et une tentative de système d'étoiles de recherche partiellement fonctionnelle. Le second jeu, un simulateur spatial, était également jugé très propre pour un modèle de cette taille.

Les tests agentiques menés via Open Code ont confirmé les capacités de codage multi-fichiers : à partir d'une feuille de sprites générée par IA (non structurée), le modèle a tenté de découper les assets par analyse de densité de pixels, a échoué partiellement sur l'extraction précise des sprites (le fichier source n'était pas un sprite sheet standard), mais a produit un jeu de course rétro fonctionnel qui utilisait effectivement les graphismes fournis. Un jeu de skateboard en C++ de 1 746 lignes a également été compilé avec succès après environ 50 minutes de génération agentique, un résultat que le testeur a jugé impressionnant au regard de la complexité du livrable.

L'ensemble de ces tests illustre une tendance de fond : les modèles de cette taille et de cette génération commencent à rendre concrètement accessibles des workflows agentiques qui, il y a un an encore, nécessitaient des modèles de 70 milliards de paramètres ou des API propriétaires.

Le contexte stratégique : Apache 2.0 contre le verrouillage propriétaire

Cette sortie s'inscrit dans un contexte stratégique précis : début avril, Alibaba avait publié trois modèles propriétaires fermés en trois jours, signalant que la partie haute de sa gamme serait réservée aux API payantes. Le Qwen3.6-27B coupe dans l'autre sens; Apache 2.0, usage commercial autorisé, sans redevance.

Pour les équipes qui ne peuvent ou ne souhaitent pas acheminer leur code source vers des fournisseurs américains (pour des raisons de souveraineté des données, de conformité réglementaire, ou simplement de confidentialité des propriétés intellectuelles), la disponibilité d'un modèle téléchargeable de 55 Go rivalisant avec les modèles frontier sur les tâches de codage agentique constitue un changement d'équation économique réel.

La question de confiance revient néanmoins de manière récurrente dans les discussions de la communauté technique, notamment sur Hacker News. Des intervenants soulèvent que confier des actifs de code sensibles à un modèle hébergé par une infrastructure chinoise soulève des questions différentes de celles liées à un modèle tournant entièrement en local sur sa propre infrastructure, ce qui est précisément l'un des avantages concurrentiels du modèle open weight par rapport aux API. D'autres observateurs notent, à l'inverse, que la méfiance envers les fournisseurs d'infrastructure est loin d'être l'apanage des acteurs non-américains.

Sources : Alibaba, NYU Shanghai Library, vidéo dans le texte, forum NVIDIA

Et vous ?

Le passage à des modèles denses de 27 milliards de paramètres accessibles sur GPU grand public marque-t-il la fin pratique de la dépendance aux API propriétaires pour les tâches de codage agentique courantes, ou la qualité à la marge des modèles frontier justifie-t-elle encore ce coût ?

La fenêtre de contexte de 262 000 tokens du Qwen3.6-27B est théoriquement disponible, mais en pratique limitée par la VRAM disponible. Comment les équipes qui opèrent avec des GPU de 24 Go gèrent-elles ce compromis entre qualité de quantisation, longueur de contexte et débit ?

L'architecture hybride Gated DeltaNet + attention quadratique, 3 couches linéaires pour 1 classique, ouvre-t-elle la voie à une nouvelle génération de modèles qui n'auraient plus à choisir entre performance sur les longues séquences et précision sur les tâches de raisonnement ?

La prolifération des formats de quantisation (Q3_K_S, Q4_K_M, UD-IQ4_XS, NVFP4…) constitue-t-elle désormais la principale barrière à l'adoption des modèles open source en production, plus que les performances brutes elles-mêmes ?

Avec un modèle Apache 2.0 qui se rapproche à quelques points des modèles frontier sur les benchmarks de codage, quel avantage compétitif reste-t-il aux labs propriétaires, la confiance institutionnelle, la frontière de la recherche, ou l'écosystème d'outils ?

Voir aussi :

Codage agentique, raisonnement préservé, un million de tokens : Qwen3.6-35B-A3B redessine le plafond de l'IA open source pour les développeurs, malgré plusieurs départs d'ingénieurs clés qui ont quitté le projet

Alibaba présente Qwen 3.6 Plus, un modèle d'IA 100 % gratuit qui surpasserait Claude Sonnet 4.6 et permettrait de créer des applications en une seule instruction

Alibaba dévoile Qwen 3.6-Max-Preview, la version préliminaire de son prochain modèle d'IA avancé, qui est plus intelligent, plus performant et toujours en pleine évolution

Vous avez lu gratuitement 686 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage, mais que valent vraiment ces chiffres avant la vérification indépendante ?

Identifiant
Mot de passe

Mot de passe oublié ?