Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Qwen est une famille de grands modèles de langage développés par la société chinoise Alibaba Cloud. En août 2023, Alibaba Cloud a annoncé la série Qwen-VL, une gamme de modèles de langage visuel qui combine un transformateur de vision avec un LLM. En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.Le 23 septembre 2025, Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines : qu'il s'agisse de comprendre et de générer du texte, de percevoir et de raisonner sur du contenu visuel, de prendre en charge des contextes plus longs, de comprendre les relations spatiales et les vidéos dynamiques, ou d'interagir avec des agents IA, Qwen3-VL affiche des progrès clairs et significatifs par rapport aux versions précédentes.Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.L'objectif de Qwen3-VL n'est pas seulement de « voir » des images ou des vidéos, mais de vraiment comprendre le monde, d'interpréter les événements et d'agir. Cette version offrirait des capacités clés, faisant passer les modèles visuels d'une simple « perception » à une « cognition » plus profonde, et d'une « reconnaissance » de base à un « raisonnement et une exécution » avancés.Voici les principaux points forts du modèle selon Alibaba Cloud :En termes d'architecture, cette version adopte la conception native à résolution dynamique, mais Alibaba Cloud a mis à jour la conception structurelle dans trois aspects :Tout d'abord, ils ont utilisé. Le MRoPE original divise les dimensions des caractéristiques en blocs selon l'ordre du temps (t), de la hauteur (h) et de la largeur (w), ce qui concentre toutes les informations temporelles dans les dimensions à haute fréquence. Dans Qwen3-VL, ils distribuent plutôt t, h et w de manière entrelacée, ce qui permet une couverture complète des fréquences dans le temps, la hauteur et la largeur. Cet encodage positionnel plus robuste garantit une capacité de compréhension des images comparable tout en améliorant considérablement la compréhension des vidéos longues.Deuxièmement, ils ont introduit la technologie DeepStack pour fusionner les caractéristiques multi-niveaux de ViT, améliorant ainsi la capture des détails visuels et la précision de l'alignement texte-image. Suivant l'idée centrale de, ils sont passés de la pratique conventionnelle des grands modèles multimodaux (LMM), qui consiste à injecter des jetons visuels dans une seule couche, à leur injection dans plusieurs couches du grand modèle de langage (LLM). Cette approche d'injection multicouche permet une compréhension visuelle plus fine.De plus, ils ont optimisé la stratégie de tokenisation des caractéristiques visuelles : les caractéristiques visuelles extraites de différentes couches ViT sont tokenisées et utilisées comme entrées visuelles. Cette conception préserve efficacement les informations visuelles riches, des caractéristiques de bas niveau à celles de haut niveau. Les résultats expérimentaux démontrent des améliorations significatives des performances dans diverses tâches de compréhension visuelle.Troisièmement, ils ont amélioré le mécanisme original de modélisation temporelle des vidéos, T-RoPE, pour en faire un. Ce mécanisme adopte un format d'entrée entrelacé « horodatages-images vidéo », permettant un alignement fin entre les informations temporelles au niveau des images et le contenu visuel.De plus, le modèle prend en charge nativement deux formats de sortie temporelle : « secondes » et « heures:minutes:secondes » (HMS). Cette amélioration renforce considérablement la perception sémantique et la précision de la localisation temporelle du modèle pour les actions et les événements dans les vidéos, ce qui se traduit par des performances plus robustes et des réponses plus précises dans les tâches de raisonnement temporel complexes, telles que la localisation d'événements, la détection des limites d'actions et la réponse à des questions temporelles intermodales.Alibaba Cloud conclut son annonce en déclarant :Pensez-vous que cette annonce est crédible ou pertinente ?Quel est votre avis sur le sujet ?