Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Le 24 septembre 2025 à 16:04, par Jade Emy

115PARTAGES

Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines. Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

Qwen est une famille de grands modèles de langage développés par la société chinoise Alibaba Cloud. En août 2023, Alibaba Cloud a annoncé la série Qwen-VL, une gamme de modèles de langage visuel qui combine un transformateur de vision avec un LLM. En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.

Le 23 septembre 2025, Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines : qu'il s'agisse de comprendre et de générer du texte, de percevoir et de raisonner sur du contenu visuel, de prendre en charge des contextes plus longs, de comprendre les relations spatiales et les vidéos dynamiques, ou d'interagir avec des agents IA, Qwen3-VL affiche des progrès clairs et significatifs par rapport aux versions précédentes.

Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

L'objectif de Qwen3-VL n'est pas seulement de « voir » des images ou des vidéos, mais de vraiment comprendre le monde, d'interpréter les événements et d'agir. Cette version offrirait des capacités clés, faisant passer les modèles visuels d'une simple « perception » à une « cognition » plus profonde, et d'une « reconnaissance » de base à un « raisonnement et une exécution » avancés.

https://youtu.be/pnAIJsxn6k8

Voici les principaux points forts du modèle selon Alibaba Cloud :

[LIST][*]Capacités de l'agent visuel : Qwen3-VL peut utiliser des interfaces informatiques et mobiles, reconnaître des éléments d'interface graphique, comprendre les fonctions des boutons, appeler des outils et accomplir des tâches. Il atteint les meilleures performances mondiales sur des tests de référence tels que OS World, et l'utilisation d'outils améliore considérablement ses performances sur des tâches de perception fines.

[*]Performances supérieures centrées sur le texte : Qwen3-VL utilise un pré-entraînement conjoint précoce des modalités textuelles et visuelles, renforçant ainsi continuellement ses capacités linguistiques. Ses performances sur les tâches textuelles égalent celles de Qwen3-235B-A22B-2507, le modèle de langage phare, ce qui en fait une véritable « puissance multimodale fondée sur le texte » pour la prochaine génération de modèles de vision-langage.

[*]Codage visuel amélioré : il peut désormais générer du code à partir d'images ou de vidéos, par exemple en transformant une maquette de conception en code Draw.io, HTML, CSS ou JavaScript, ce qui rend possible la programmation visuelle « ce que vous voyez est ce que vous obtenez ».

[*]Meilleure compréhension spatiale : ancrage 2D des coordonnées absolues aux coordonnées relatives. Il peut évaluer les positions des objets, les changements de point de vue et les relations d'occlusion. Il prend en charge l'ancrage 3D, jetant ainsi les bases d'un raisonnement spatial complexe et d'applications d'IA incarnées.

[*]Compréhension de contextes longs et de vidéos longues : tous les modèles prennent en charge nativement 256 000 jetons de contexte, extensibles jusqu'à 1 million de jetons. Cela signifie que vous pouvez saisir des centaines de pages de documents techniques, des manuels scolaires entiers ou même des vidéos de deux heures. Le modèle se souviendra de tout et récupérera les détails avec précision, à la seconde près dans les vidéos.

[*]Raisonnement multimodal plus puissant (version Thinking) : le modèle Thinking est spécialement optimisé pour le raisonnement STEM et...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Identifiant
Mot de passe

Mot de passe oublié ?