Alibaba Group a lancé Qwen 3, une nouvelle version de son modèle d'intelligence artificielle (IA). Cette sortie s'inscrit dans le cadre de la concurrence croissante dans le domaine de l'IA en Chine, où des startups locales comme DeepSeek ont créé des modèles performants à des prix inférieurs à ceux des entreprises occidentales.Alibaba Group Holding Limited, connu sous le nom d'Alibaba, est une société technologique multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et la technologie. Fondée le 28 juin 1999 à Hangzhou, Zhejiang, l'entreprise fournit des services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B) via des places de marché chinoises et mondiales, ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et de cloud computing. Elle possède et exploite un portefeuille diversifié d'entreprises à travers le monde dans de nombreux secteurs d'activité.
La récente initiative du géant asiatique fait suite au lancement par Alibaba de Qwen 2.5-Max, un modèle d'IA qui, selon l'entreprise, surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B de Meta. La sortie de ce modèle, qui a coïncidé avec le premier jour du nouvel An lunaire, période de congé pour la plupart des Chinois, témoigne de la pression concurrentielle à laquelle Alibaba est confronté de la part d'acteurs nationaux en plein essor.
Le lancement de Qwen 3 intervient, quant à elle, à un moment où les entreprises technologiques chinoises renforcent leurs capacités en matière d'IA. Baidu, par exemple, a récemment lancé ses modèles Ernie 4.5 Turbo et Ernie X1 Turbo, renforçant ainsi la concurrence. L'initiative d'Alibaba répond ainsi au succès de DeepSeek dans la création de modèles d'IA efficaces à des prix moins élevés, ce qui remet en cause la domination des leaders occidentaux tels que Google et OpenAI.
Qwen 3 est open-source, avec des modèles disponibles sur des plateformes telles que Hugging Face et GitHub. Cette initiative devrait encourager la participation de la communauté et aider les développeurs à l'adopter plus rapidement. Les analystes considèrent qu'il s'agit d'une mesure forte prise par Alibaba pour concurrencer les modèles américains et renforcer son rôle dans le domaine de l'IA à l'échelle mondiale.
Implications pour le secteur de l'IA
L'introduction du Qwen 3 et d'autres modèles d'IA chinois témoigne des progrès rapides de la Chine en matière de recherche et de développement dans le domaine de l'IA, soutenus à la fois par le gouvernement et par l'innovation privée. La concurrence incite les laboratoires de recherche américains à améliorer leurs technologies d'IA et a suscité des discussions sur la limitation de l'accès des entreprises chinoises à d'importants outils d'IA, tels que les puces haut de gamme.
Alors qu'Alibaba continue d'investir dans l'IA, l'accent mis sur les modèles ouverts et les compétences de raisonnement avancées lui permet de répondre au besoin croissant de solutions d'IA dans diverses industries. Les performances de Qwen 3 seront suivies de près, non seulement pour leur impact sur les actions d'Alibaba, mais aussi pour leurs effets sur le marché mondial de l'IA.
Principales fonctionnalités de Qwen3
Qwen 3 est un grand modèle de langage qui combine les caractéristiques traditionnelles de l'IA avec des capacités de raisonnement avancées. Le modèle le plus performant compte 235 milliards de paramètres et utilise un mélange d'experts qui améliore l'efficacité.
Qwen 3 dispose en outre d'une fenêtre contextuelle native de 32 K, qui peut être étendue à 128 K avec YaRN. Il n'active que huit experts sur 128 par jeton, ce qui réduit le coût de l'inférence par rapport à des systèmes plus denses.
Modes de raisonnement hybrides
Les modèles Qwen3 introduisent un « mode raisonnement » qui permet aux développeurs de passer d'un raisonnement étape par étape pour les questions complexes à des réponses rapides pour les questions plus simples. Cette approche hybride de la résolution de problèmes rend Qwen 3 plus utile pour les développeurs.
Les modèles Qwen3 prennent en charge deux modes :
- Le mode raisonnement : Dans ce mode, le modèle prend le temps de raisonner étape par étape avant de fournir la réponse finale. Ce mode est idéal pour les problèmes complexes qui nécessitent un raisonnement plus approfondi.
- Mode sans raisonnement : Dans ce mode, le modèle fournit des réponses rapides, presque instantanées, qui conviennent aux questions plus simples pour lesquelles la rapidité est plus importante que la profondeur.
Cette flexibilité permet aux utilisateurs de contrôler le degré de « raisonnement » effectué par le modèle en fonction de la tâche à accomplir. Par exemple, les problèmes les plus difficiles peuvent être abordés par un raisonnement approfondi, tandis que les plus simples peuvent recevoir une réponse directe sans délai. L'intégration de ces deux modes améliore considérablement la capacité du modèle à mettre en œuvre un contrôle stable et efficace du budget de raisonnement. Qwen3 présente des améliorations de performance évolutives et régulières qui sont directement corrélées au budget de raisonnement informatique alloué. Cette conception permet aux utilisateurs de configurer plus facilement des budgets spécifiques à une tâche, ce qui permet d'atteindre un équilibre plus optimal entre la rentabilité et la qualité de l'inférence.
Prise en charge multilingue
Les modèles Qwen3 prennent en charge 119 langues et dialectes, dont le français. Cette capacité multilingue étendue ouvre de nouvelles possibilités pour les applications internationales, permettant aux utilisateurs du monde entier de bénéficier de la puissance de ces modèles.
Capacités agentiques améliorées
Alibaba a optimisé les modèles Qwen3 pour le codage et les capacités agentiques, et a également renforcé la prise en charge du MCP. Des exemples sont donnés ci-dessous pour montrer comment Qwen3 raisonne et interagit avec l'environnement.
Performances de Qwen3 sur les principaux benchmarks
Le modèle phare d'Alibaba, Qwen3-235B-A22B, obtient des résultats compétitifs dans les évaluations comparatives du codage, des mathématiques, des capacités générales, etc., par rapport à d'autres modèles de premier plan tels que DeepSeek-R1, o1, o3-mini, Grok-3 et Gemini-2.5-Pro. En outre, le petit modèle MoE, Qwen3-30B-A3B, surpasse QwQ-32B avec 10 fois plus de paramètres activés, et même un petit modèle comme Qwen3-4B peut rivaliser avec les performances de Qwen2.5-72B-Instruct.
Alibaba a mis en place une pondération ouverte pour deux modèles MoE : Qwen3-235B-A22B, un grand modèle avec 235 milliards de paramètres totaux et 22 milliards de paramètres activés, et Qwen3-30B-A3B, un modèle MoE plus petit avec 30 milliards de paramètres totaux et 3 milliards de paramètres activés. En outre, six modèles denses sont également à pondération ouverte, notamment Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B et Qwen3-0.6B, sous licence Apache 2.0.
Les modèles post-entraînés, tels que Qwen3-30B-A3B, ainsi que leurs équivalents pré-entraînés (par exemple, Qwen3-30B-A3B-Base), sont désormais disponibles sur des plateformes telles que Hugging Face, ModelScope et Kaggle. Pour le déploiement, Alibaba recommande d'utiliser des frameworks tels que SGLang et vLLM. Pour une utilisation locale, des outils tels que Ollama, LMStudio, MLX, llama.cpp et KTransformers sont fortement recommandés. Ces options permettent aux utilisateurs d'intégrer facilement Qwen3 dans leurs flux de travail, que ce soit dans des environnements de recherche, de développement ou de production.
En termes de prétraînement, l'ensemble de données de Qwen3 a été considérablement élargi par rapport à Qwen2.5. Alors que Qwen2.5 a été pré-entraîné sur 18 mille milliards de tokens, Qwen3 utilise presque le double de cette quantité, avec environ 36 mille milliards de tokens couvrant 119 langues et dialectes. Pour constituer ce vaste ensemble de données, Alibaba a collecté des données non seulement sur le web, mais aussi dans des documents de type PDF. L'entreprise a utilisé Qwen2.5-VL pour extraire le texte de ces documents et Qwen2.5 pour améliorer la qualité du contenu extrait. Pour augmenter la quantité de données mathématiques et...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.