Codage agentique, raisonnement préservé, un million de tokens : Qwen3.6-35B-A3B redessine le plafond de l'IA open source pour les développeurs,malgré plusieurs départs d'ingénieurs clés qui ont quitté le projet
Quelques semaines après une crise interne qui avait fait craindre le pire pour son avenir, la famille Qwen d'Alibaba revient avec un modèle de code aussi ambitieux que symbolique. Le Qwen3.6-35B-A3B incarne une architecture MoE (mixture d'experts) optimisée pour la programmation agentique et le raisonnement à l'échelle d'un dépôt entier et ses scores sur les benchmarks les plus exigeants sont difficiles à ignorer. Retour sur une sortie qui redistribue les cartes.
Pour saisir la portée de cette publication, il faut d'abord revenir sur la tourmente qui a secoué l'équipe Qwen au début du mois de mars 2026. À peine vingt-quatre heures après le lancement de la série Qwen 3.5 Small (des modèles dont Elon Musk lui-même avait salué la densité d'intelligence sur X), Junyang Lin, figure technique centrale du projet, annonçait son départ sans donner plus de précisions. Il avait rejoint Alibaba en juillet 2019 et intégré l'équipe Qwen en avril 2023, d'après son profil LinkedIn. Ce départ soudain, qui a suscité de vives réactions parmi ses collègues et partenaires du secteur, intervient alors que la concurrence mondiale entre les développeurs d'IA s'intensifie et que les entreprises s'efforcent de créer des modèles capables de rivaliser avec ceux d'OpenAI, de Google et d'Anthropic.
Dans la foulée, Binyuan Hui, responsable de Qwen Code, et Kaixin Li, contributeur principal des versions Coder, quittaient également l'entreprise. Yu Bowen, à la tête du travail de post-entraînement, suivait peu après.
Lin Junyang, 32 ans, avait fait de Qwen la série de modèles open source la plus téléchargée au monde, dépassant 700 millions de téléchargements sur Hugging Face. Sa démission, présentée de l'extérieur comme un départ volontaire, semblait en réalité moins consentie : Chen Cheng, un contributeur du projet, lui adressait publiquement ce message : « Je sais que partir n'était pas ton choix. »
Le départ de Lin est survenu au moment même où l'équipe Qwen s'apprêtait à publier de nouvelles versions, suscitant des réactions particulièrement vives de la part de ses collègues et partenaires, qui ont souligné le rôle central qu'il a joué dans le projet.
Wenting Zhao, chercheuse au sein de l'équipe Qwen, a décrit le départ de Lin comme « la fin d'une ère », le remerciant dans un article publié sur X pour sa contribution aux avancées du projet dans le domaine de l'IA et de l'ingénierie open source. Yuchen Jin, directeur technique de la startup Hyperbolic, spécialisée dans les infrastructures d'IA, a déclaré que Lin avait joué un rôle déterminant dans le rapprochement de Qwen avec la communauté mondiale des développeurs, se souvenant de longues soirées de collaboration avec l'équipe lors des lancements de modèles. Tiezhen Wang, responsable de l'écosystème Asie-Pacifique chez Hugging Face, a également qualifié le départ de Lin de « perte immense » pour le projet Qwen.
La direction d'Alibaba a admis lors d'une réunion de crise des « lacunes de communication » et une réorganisation profonde du laboratoire Tongyi, passant d'une structure verticalement intégrée à des équipes séparées de pré-entraînement, post-entraînement et de compréhension visuelle. Pour suppléer aux départs, Alibaba a recruté Hao Zhou, ancien chercheur chez Google DeepMind, pour prendre en charge les travaux de post-entraînement.
Dans ce contexte, la sortie du Qwen3.6-35B-A3B quelques semaines plus tard prend une valeur presque symbolique. Sur Hacker News, un utilisateur l'a relevé : « C'est un soulagement de voir l'équipe Qwen continuer à publier des poids ouverts, après les départs de Junyang Lin et des autres. »
L'architecture MoE, clé de l'efficacité
Le nom du modèle contient l'essentiel de l'histoire technique. Les 35B désignent le nombre total de paramètres de l'architecture ; l'A3B indique que seulement 3 milliards de ces paramètres sont activés lors de l'inférence d'un token. C'est la signature d'une architecture MoE (mixture of experts), dans laquelle le modèle dispose de sous-réseaux spécialisés (les « experts ») parmi lesquels un mécanisme de routage sélectionne dynamiquement ceux qui traitent chaque entrée.
L'intérêt pratique est immédiat : on dispose de la capacité de représentation d'un grand modèle dense, mais avec un coût de calcul par token beaucoup plus proche d'un modèle de 3 milliards de paramètres. Un utilisateur HN précise la nuance matérielle importante : même si seuls 3B de paramètres sont actifs à l'inférence, l'ensemble des poids doit rester en mémoire, et l'architecture MoE peut se montrer plus capricieuse à déployer qu'un modèle dense classique. Il rappelle néanmoins que des outils comme llama.cpp permettent de délester les experts sur le CPU (via l'option --cpu-moe), au prix d'un débit réduit.
Le modèle prend en charge une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à environ 1 million de tokens Hugging Face, ce qui en fait l'un des modèles de code ouverts les mieux dotés pour les sessions de travail sur de larges bases de code.
Des chiffres qui parlent d'eux-mêmes
Alibaba a soumis Qwen3.6-35B-A3B à plusieurs des benchmarks les plus discriminants pour la programmation agentique. Sur Terminal-Bench 2.0, qui évalue le code en environnement terminal avec un délai de trois heures et des ressources CPU réelles, le modèle obtient 51,5 points contre 42,9 pour le Gemma4-31B de Google. L'écart est encore plus prononcé sur les benchmarks SWE-Bench, conçus pour mesurer la capacité d'un modèle à corriger des bugs dans de vrais dépôts GitHub : SWE-bench Pro donne 49,5 contre 35,7 pour Gemma4-31B ; SWE-bench Verified atteint 73,4 contre 52,0, et SWE-bench Multilingual 67,2 contre 51,7.
Ces chiffres méritent cependant d'être contextualisés. Sur HN, un participant souligne qu'Alibaba a soigneusement évité de comparer ce modèle aux assistants propriétaires comme Claude Sonnet ou GPT : les comparaisons restent cantonnées aux modèles open source concurrents, Gemma4-31B en tête. Ce n'est pas un oubli : un autre commentateur résume la position de manière directe, en indiquant que ces modèles n'arrivent pas encore au niveau des meilleurs modèles commerciaux, quel que soit ce que les benchmarks affichent. Ils sont remarquables pour ce qu'ils sont (des modèles exécutables sur du matériel standard) mais ils ont des limites et nécessitent d'adapter les flux de travail en conséquence.
Deux capacités phares : raisonnement agentique et mémoire de raisonnement
Au-delà de l'architecture, Alibaba a mis l'accent sur deux axes qui répondent aux plaintes les plus récurrentes des développeurs vis-à-vis des modèles de code ouverts.
Le premier est le codage agentique à plusieurs étapes. La promesse n'est pas de générer un fichier en une requête, mais de rester cohérent sur plusieurs cycles d'itération : proposer des modifications sur plusieurs fichiers, lire les résultats de tests, corriger, relancer. La fiche technique du modèle sur Hugging Face précise qu'il gère désormais les flux de travail frontend et le raisonnement à l'échelle d'un dépôt avec plus de fluidité et de précision.
Le second est la préservation du raisonnement entre les messages, un mécanisme inédit dans la famille Qwen. Lors d'une session agentique multi-tours, le modèle peut conserver le contexte de son raisonnement des messages précédents plutôt que de le recalculer depuis zéro. Cette fonctionnalité réduit les frais généraux d'inférence, améliore la cohérence des décisions dans les scénarios agentiques, et optimise l'utilisation du cache KV, aussi bien en mode raisonnement qu'en mode standard. Concrètement, un agent de code qui débogue un problème sur dix étapes ne « repart pas de zéro » à chaque échange.
Ce que la communauté en fait déjà
La mise à disposition a été quasi-immédiate sur Hugging Face. L'équipe Unsloth a publié une version quantifiée au format GGUF dès les premières heures, permettant à ceux qui ne disposent pas de plusieurs GPU de pouvoir tester le modèle dans des conditions raisonnables.
Les commentaires sur HN reflètent des attentes différenciées selon les profils. Les développeurs travaillant dans des secteurs réglementés comme la banque ou la santé voient dans ces modèles ouverts la seule alternative crédible aux API publiques, à condition de ne pas se leurrer sur leurs limites réelles par rapport aux modèles de pointe. D'autres se concentrent sur les contraintes matérielles : un Mac équipé de 36 Go de mémoire unifiée ne suffit pas à charger confortablement ce modèle avec un contexte long, et les utilisateurs espèrent des variantes plus petites, notamment une version 9B, dans les prochaines semaines.
Un échange intéressant porte sur le coût réel d'un modèle « gratuit » : un participant fait observer que si l'on tient compte du coût de l'électricité consommée lors des inférences locales, Claude Haiku reste souvent moins cher, plus rapide et meilleur que tout ce qu'un particulier peut exécuter sur sa propre machine. L'argument est honnête, et rappelle que « open weights » ne signifie pas nécessairement « économique » dans tous les contextes.
L'enjeu derrière le modèle : la souveraineté logicielle
Derrière la technique, ce lancement s'inscrit dans une dynamique plus large. La course à l'IA open source s'intensifie, avec Google et son Gemma4, Meta et sa série Llama, et Alibaba avec Qwen, chacun cherchant à capturer l'adoption des développeurs. Pour les équipes qui travaillent sous contraintes réglementaires (données sensibles, environnements isolés du réseau, exigences de conformité), un modèle de code capable de s'exécuter entièrement en interne représente plus qu'une économie : c'est une condition d'existence.
Un commentateur résume sobrement ce que beaucoup pensent tout bas : même si ces modèles ne battent pas encore Sonnet ou GPT en qualité brute, ils changent la dynamique des négociations avec les fournisseurs propriétaires. Ils constituent un levier de pression, sinon une alternative immédiate.
La question reste ouverte sur la direction que prendra Qwen sous sa nouvelle gouvernance. La publication du Qwen3.6-35B-A3B est un signal fort que la production de modèles ouverts reste au programme, mais l'équipe qui l'a rendu possible n'est plus tout à fait la même.
Sources : blog Qwen, Hugging Face, Elon Musk
Et vous ?
La fenêtre d'un million de tokens est-elle réellement utile en pratique, ou l'attention se dégrade-t-elle trop au-delà de quelques centaines de milliers de tokens pour des tâches de code complexes ?
La préservation du raisonnement inter-messages est-elle un vrai changement de paradigme pour les agents de code, ou une optimisation marginale qui ne compense pas l'absence d'une mémoire structurée et persistante ?
Quen continuera-t-il à publier des poids ouverts maintenant que l'équipe fondatrice est dispersée et qu'Alibaba restructure en profondeur son laboratoire vers davantage de commercialisation ?
La comparaison délibérément évitée avec Claude ou GPT en dit-elle plus que les benchmarks eux-mêmes : ces modèles ouverts sont-ils encore trop loin des modèles commerciaux pour les usages professionnels exigeants ?
L'architecture MoE est-elle le bon pari pour les équipes DevOps qui veulent déployer un modèle de code en interne, ou la complexité opérationnelle qu'elle introduit annule-t-elle les gains en efficacité ?Voir aussi :
Alibaba présente Qwen 3.6 Plus, un modèle d'IA 100 % gratuit qui surpasserait Claude Sonnet 4.6 et permettrait de créer des applications en une seule instruction
Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres, affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent
Vous avez lu gratuitement 244 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.