IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Le , par Jade Emy

25PARTAGES

3  0 
Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines. Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

Qwen est une famille de grands modèles de langage développés par la société chinoise Alibaba Cloud. En août 2023, Alibaba Cloud a annoncé la série Qwen-VL, une gamme de modèles de langage visuel qui combine un transformateur de vision avec un LLM. En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.

Le 23 septembre 2025, Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines : qu'il s'agisse de comprendre et de générer du texte, de percevoir et de raisonner sur du contenu visuel, de prendre en charge des contextes plus longs, de comprendre les relations spatiales et les vidéos dynamiques, ou d'interagir avec des agents IA, Qwen3-VL affiche des progrès clairs et significatifs par rapport aux versions précédentes.

Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

L'objectif de Qwen3-VL n'est pas seulement de « voir » des images ou des vidéos, mais de vraiment comprendre le monde, d'interpréter les événements et d'agir. Cette version offrirait des capacités clés, faisant passer les modèles visuels d'une simple « perception » à une « cognition » plus profonde, et d'une « reconnaissance » de base à un « raisonnement et une exécution » avancés.

https://youtu.be/pnAIJsxn6k8

Voici les principaux points forts du modèle selon Alibaba Cloud :

  • Capacités de l'agent visuel : Qwen3-VL peut utiliser des interfaces informatiques et mobiles, reconnaître des éléments d'interface graphique, comprendre les fonctions des boutons, appeler des outils et accomplir des tâches. Il atteint les meilleures performances mondiales sur des tests de référence tels que OS World, et l'utilisation d'outils améliore considérablement ses performances sur des tâches de perception fines.
  • Performances supérieures centrées sur le texte : Qwen3-VL utilise un pré-entraînement conjoint précoce des modalités textuelles et visuelles, renforçant ainsi continuellement ses capacités linguistiques. Ses performances sur les tâches textuelles égalent celles de Qwen3-235B-A22B-2507, le modèle de langage phare, ce qui en fait une véritable « puissance multimodale fondée sur le texte » pour la prochaine génération de modèles de vision-langage.
  • Codage visuel amélioré : il peut désormais générer du code à partir d'images ou de vidéos, par exemple en transformant une maquette de conception en code Draw.io, HTML, CSS ou JavaScript, ce qui rend possible la programmation visuelle « ce que vous voyez est ce que vous obtenez ».

  • Meilleure compréhension spatiale : ancrage 2D des coordonnées absolues aux coordonnées relatives. Il peut évaluer les positions des objets, les changements de point de vue et les relations d'occlusion. Il prend en charge l'ancrage 3D, jetant ainsi les bases d'un raisonnement spatial complexe et d'applications d'IA incarnées.
  • Compréhension de contextes longs et de vidéos longues : tous les modèles prennent en charge nativement 256 000 jetons de contexte, extensibles jusqu'à 1 million de jetons. Cela signifie que vous pouvez saisir des centaines de pages de documents techniques, des manuels scolaires entiers ou même des vidéos de deux heures. Le modèle se souviendra de tout et récupérera les détails avec précision, à la seconde près dans les vidéos.
  • Raisonnement multimodal plus puissant (version Thinking) : le modèle Thinking est spécialement optimisé pour le raisonnement STEM et mathématique. Face à des questions complexes, il est capable de remarquer les détails les plus fins, de décomposer les problèmes étape par étape, d'analyser les causes et les effets, et de donner des réponses logiques et fondées sur des preuves. Il obtient d'excellentes performances sur les benchmarks de raisonnement tels que MathVision, MMMU et MathVista.

  • Perception et reconnaissance visuelles améliorées : grâce à l'amélioration de la qualité et de la diversité des données de pré-entraînement, le modèle peut désormais reconnaître un éventail beaucoup plus large d'objets, des célébrités aux personnages de dessins animés, en passant par les produits, les monuments, les animaux et les plantes, couvrant à la fois les besoins quotidiens et professionnels de « reconnaissance de tout ».
  • Meilleure reconnaissance optique de caractères (OCR) dans davantage de langues et de scènes complexes : l'OCR prend désormais en charge 32 langues (contre 10 auparavant), couvrant ainsi davantage de pays et de régions. Elle est plus fiable dans des conditions réelles difficiles, telles qu'un mauvais éclairage, un flou ou un texte incliné. La précision de la reconnaissance des caractères rares, des écritures anciennes et des termes techniques s'est également considérablement améliorée. Sa capacité à comprendre de longs documents et à reconstruire des structures fines a été encore renforcée.




En termes d'architecture, cette version adopte la conception native à résolution dynamique, mais Alibaba Cloud a mis à jour la conception structurelle dans trois aspects :

Tout d'abord, ils ont utilisé Interleaved-MRoPE. Le MRoPE original divise les dimensions des caractéristiques en blocs selon l'ordre du temps (t), de la hauteur (h) et de la largeur (w), ce qui concentre toutes les informations temporelles dans les dimensions à haute fréquence. Dans Qwen3-VL, ils distribuent plutôt t, h et w de manière entrelacée, ce qui permet une couverture complète des fréquences dans le temps, la hauteur et la largeur. Cet encodage positionnel plus robuste garantit une capacité de compréhension des images comparable tout en améliorant considérablement la compréhension des vidéos longues.

Deuxièmement, ils ont introduit la technologie DeepStack pour fusionner les caractéristiques multi-niveaux de ViT, améliorant ainsi la capture des détails visuels et la précision de l'alignement texte-image. Suivant l'idée centrale de DeepStack, ils sont passés de la pratique conventionnelle des grands modèles multimodaux (LMM), qui consiste à injecter des jetons visuels dans une seule couche, à leur injection dans plusieurs couches du grand modèle de langage (LLM). Cette approche d'injection multicouche permet une compréhension visuelle plus fine.

De plus, ils ont optimisé la stratégie de tokenisation des caractéristiques visuelles : les caractéristiques visuelles extraites de différentes couches ViT sont tokenisées et utilisées comme entrées visuelles. Cette conception préserve efficacement les informations visuelles riches, des caractéristiques de bas niveau à celles de haut niveau. Les résultats expérimentaux démontrent des améliorations significatives des performances dans diverses tâches de compréhension visuelle.

Troisièmement, ils ont amélioré le mécanisme original de modélisation temporelle des vidéos, T-RoPE, pour en faire un mécanisme d'alignement texte-horodatage[...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !