IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Le , par Jade Emy

0PARTAGES

3  0 
Alibaba Cloud lance le modèle de vision-langage le plus puissant de la famille Qwen, Qwen3-VL, avec une vision plus précise, une réflexion plus approfondie et une action plus large

Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines. Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

Qwen est une famille de grands modèles de langage développés par la société chinoise Alibaba Cloud. En août 2023, Alibaba Cloud a annoncé la série Qwen-VL, une gamme de modèles de langage visuel qui combine un transformateur de vision avec un LLM. En juillet 2024, Qwen a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.

Le 23 septembre 2025, Alibaba Cloud a lancé la toute nouvelle série Qwen3-VL, le modèle vision-langage le plus puissant de la famille Qwen à ce jour. Cette nouvelle génération devrait apporter des améliorations majeures dans plusieurs domaines : qu'il s'agisse de comprendre et de générer du texte, de percevoir et de raisonner sur du contenu visuel, de prendre en charge des contextes plus longs, de comprendre les relations spatiales et les vidéos dynamiques, ou d'interagir avec des agents IA, Qwen3-VL affiche des progrès clairs et significatifs par rapport aux versions précédentes.

Le modèle phare de cette série : Qwen3-VL-235B-A22B est open source et disponible en versions Instruct et Thinking. Selon les tests internes, la version Instruct égale, voire dépasse, Gemini 2.5 Pro dans les principaux benchmarks de perception visuelle. La version Thinking obtient des résultats de pointe dans des benchmarks de raisonnement multimodal.

L'objectif de Qwen3-VL n'est pas seulement de « voir » des images ou des vidéos, mais de vraiment comprendre le monde, d'interpréter les événements et d'agir. Cette version offrirait des capacités clés, faisant passer les modèles visuels d'une simple « perception » à une « cognition » plus profonde, et d'une « reconnaissance » de base à un « raisonnement et une exécution » avancés.


Voici les principaux points forts du modèle selon Alibaba Cloud :

  • Capacités de l'agent visuel : Qwen3-VL peut utiliser des interfaces informatiques et mobiles, reconnaître des éléments d'interface graphique, comprendre les fonctions des boutons, appeler des outils et accomplir des tâches. Il atteint les meilleures performances mondiales sur des tests de référence tels que OS World, et l'utilisation d'outils améliore considérablement ses performances sur des tâches de perception fines.
  • Performances supérieures centrées sur le texte : Qwen3-VL utilise un pré-entraînement conjoint précoce des modalités textuelles et visuelles, renforçant ainsi continuellement ses capacités linguistiques. Ses performances sur les tâches textuelles égalent celles de Qwen3-235B-A22B-2507, le modèle de langage phare, ce qui en fait une véritable « puissance multimodale fondée sur le texte » pour la prochaine génération de modèles de vision-langage.
  • Codage visuel amélioré : il peut désormais générer du code à partir d'images ou de vidéos, par exemple en transformant une maquette de conception en code Draw.io, HTML, CSS ou JavaScript, ce qui rend possible la programmation visuelle « ce que vous voyez est ce que vous obtenez ».

  • Meilleure compréhension spatiale : ancrage 2D des coordonnées absolues aux coordonnées relatives. Il peut évaluer les positions des objets, les changements de point de vue et les relations d'occlusion. Il prend en charge l'ancrage 3D, jetant ainsi les bases d'un raisonnement spatial complexe et d'applications d'IA incarnées.
  • Compréhension de contextes longs et de vidéos longues : tous les modèles prennent en charge nativement 256 000 jetons de contexte, extensibles jusqu'à 1 million de jetons. Cela signifie que vous pouvez saisir des centaines de pages de documents techniques, des manuels scolaires entiers ou même des vidéos de deux heures. Le modèle se souviendra de tout et récupérera les détails avec précision, à la seconde près dans les vidéos.
  • Raisonnement multimodal plus puissant (version Thinking) : le modèle Thinking est spécialement optimisé pour le raisonnement STEM et mathématique. Face à des questions complexes, il est capable de remarquer les détails les plus fins, de décomposer les problèmes étape par étape, d'analyser les causes et les effets, et de donner des réponses logiques et fondées sur des preuves. Il obtient d'excellentes performances sur les benchmarks de raisonnement tels que MathVision, MMMU et MathVista.

  • Perception et reconnaissance visuelles améliorées : grâce à l'amélioration de la qualité et de la diversité des données de pré-entraînement, le modèle peut désormais reconnaître un éventail beaucoup plus large d'objets, des célébrités aux personnages de dessins animés, en passant par les produits, les monuments, les animaux et les plantes, couvrant à la fois les besoins quotidiens et professionnels de « reconnaissance de tout ».
  • Meilleure reconnaissance optique de caractères (OCR) dans davantage de langues et de scènes complexes : l'OCR prend désormais en charge 32 langues (contre 10 auparavant), couvrant ainsi davantage de pays et de régions. Elle est plus fiable dans des conditions réelles difficiles, telles qu'un mauvais éclairage, un flou ou un texte incliné. La précision de la reconnaissance des caractères rares, des écritures anciennes et des termes techniques s'est également considérablement améliorée. Sa capacité à comprendre de longs documents et à reconstruire des structures fines a été encore renforcée.



En termes d'architecture, cette version adopte la conception native à résolution dynamique, mais Alibaba Cloud a mis à jour la conception structurelle dans trois aspects :

Tout d'abord, ils ont utilisé Interleaved-MRoPE. Le MRoPE original divise les dimensions des caractéristiques en blocs selon l'ordre du temps (t), de la hauteur (h) et de la largeur (w), ce qui concentre toutes les informations temporelles dans les dimensions à haute fréquence. Dans Qwen3-VL, ils distribuent plutôt t, h et w de manière entrelacée, ce qui permet une couverture complète des fréquences dans le temps, la hauteur et la largeur. Cet encodage positionnel plus robuste garantit une capacité de compréhension des images comparable tout en améliorant considérablement la compréhension des vidéos longues.

Deuxièmement, ils ont introduit la technologie DeepStack pour fusionner les caractéristiques multi-niveaux de ViT, améliorant ainsi la capture des détails visuels et la précision de l'alignement texte-image. Suivant l'idée centrale de DeepStack, ils sont passés de la pratique conventionnelle des grands modèles multimodaux (LMM), qui consiste à injecter des jetons visuels dans une seule couche, à leur injection dans plusieurs couches du grand modèle de langage (LLM). Cette approche d'injection multicouche permet une compréhension visuelle plus fine.

De plus, ils ont optimisé la stratégie de tokenisation des caractéristiques visuelles : les caractéristiques visuelles extraites de différentes couches ViT sont tokenisées et utilisées comme entrées visuelles. Cette conception préserve efficacement les informations visuelles riches, des caractéristiques de bas niveau à celles de haut niveau. Les résultats expérimentaux démontrent des améliorations significatives des performances dans diverses tâches de compréhension visuelle.

Troisièmement, ils ont amélioré le mécanisme original de modélisation temporelle des vidéos, T-RoPE, pour en faire un mécanisme d'alignement texte-horodatage. Ce mécanisme adopte un format d'entrée entrelacé « horodatages-images vidéo », permettant un alignement fin entre les informations temporelles au niveau des images et le contenu visuel.

De plus, le modèle prend en charge nativement deux formats de sortie temporelle : « secondes » et « heures:minutes:secondes » (HMS). Cette amélioration renforce considérablement la perception sémantique et la précision de la localisation temporelle du modèle pour les actions et les événements dans les vidéos, ce qui se traduit par des performances plus robustes et des réponses plus précises dans les tâches de raisonnement temporel complexes, telles que la localisation d'événements, la détection des limites d'actions et la réponse à des questions temporelles intermodales.


Alibaba Cloud conclut son annonce en déclarant :

Qwen3-VL égale, voire surpasse, les modèles fermés haut de gamme actuels dans plusieurs benchmarks multimodaux, mais surtout, il intègre véritablement de puissantes capacités textuelles à la compréhension visuelle, éliminant ainsi tout biais envers une modalité particulière. Nous avons apporté des améliorations substantielles dans des domaines clés tels que la perception visuelle, le raisonnement spatial, la compréhension de vidéos longues, la reconnaissance multilingue, l'invocation d'outils et la génération de code, permettant ainsi au modèle non seulement de « voir », mais aussi de véritablement « comprendre, raisonner et agir ».

Le modèle Qwen3-VL-235B-A22B que nous mettons aujourd'hui en open source vise à servir de tremplin solide pour l'exploration des grands modèles par la communauté. À l'avenir, nous continuerons à nous efforcer de permettre aux grands modèles multimodaux de comprendre véritablement les événements et les relations dans le monde réel, afin qu'ils puissent finalement fonctionner comme des assistants fiables capables d'accomplir des tâches et de résoudre des problèmes de manière proactive dans des environnements numériques et physiques.
Source : Qwen

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Alibaba dévoile Qwen2.5-VL-32B, un nouveau modèle d'IA multimodale combinant vision, langage et raisonnement mathématique

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables. Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Google présente PaliGemma, un modèle ouvert vision-langage, et annonce Gemma 2, la nouvelle génération de son modèle d'IA Gemma, ainsi qu'une boîte à outils améliorée pour l'IA responsable
Vous avez lu gratuitement 293 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !