Alibaba dévoile Qwen2.5-VL-32B, un nouveau modèle d'IA multimodale combinant vision, langage et raisonnement mathématique

Le 25 mars 2025 à 09:15, par Anthony

44PARTAGES

Alibaba dévoile Qwen2.5-VL-32B, un nouveau modèle d'IA multimodale combinant vision, langage et raisonnement mathématique

Le géant technologique chinois Alibaba a réalisé une nouvelle avancée significative dans le domaine de l'intelligence artificielle (IA). Récemment, l'entreprise a mis en libre accès son dernier modèle multimodal, Qwen2.5-VL-32B-Instruct. Ce nouveau modèle fait partie de la série Qwen2.5, qui comprend également les versions 3B, 7B et 72B. La version 32B donne la priorité à l'exécution locale pratique tout en maintenant des performances élevées.

Qwen, également appelé Tongyi Qianwen, est une famille de grands modèles de langage (LLM) développés par Alibaba Cloud. En juillet 2024, il a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.

La sortie de Qwen2.5-VL-32B-Instruct fait suite au lancement par Alibaba d'une nouvelle version de son modèle d'IA Qwen 2.5-Max, qui selon l'entreprise surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B.

Qwen2.5-VL-32B, optimisé par apprentissage par renforcement, excelle dans plusieurs domaines. Tout d'abord, ses réponses sont plus en phase avec les habitudes cognitives humaines, ce qui se traduit par une expérience de conversation plus naturelle et plus fluide. Deuxièmement, il présente une amélioration significative des capacités de raisonnement mathématique. Qu'il s'agisse de problèmes mathématiques complexes ou d'analyses géométriques, Qwen2.5-VL-32B fournit des analyses et des raisonnements précis et clairs. En outre, sa précision en matière d'analyse d'images, de reconnaissance de contenu et de déduction logique visuelle a été considérablement améliorée, ce qui permet une analyse plus nuancée des données multimodales.

Caractéristiques du modèle

Vers fin janvier 2025, Alibaba a lancé la série de modèles Qwen2.5-VL, qui a fait l'objet d'une grande attention et de commentaires positifs de la part de la communauté. S'appuyant sur la série Qwen2.5-VL, la firme a continué à optimiser le modèle en utilisant l'apprentissage par renforcement et a mis en open-source le nouveau modèle VL avec la très appréciée échelle de paramètres 32B sous la licence Apache 2.0 - Qwen2.5-VL-32B-Instruct. Par rapport aux modèles de la série Qwen2.5-VL précédemment publiés, les caractéristiques de ce modèle VL 32B sont les suivantes :

Réponses plus conformes aux préférences humaines : Le style de sortie a été ajusté pour fournir des réponses plus détaillées et mieux formatées qui correspondent davantage aux préférences humaines.
Raisonnement mathématique : Amélioration significative de la précision de la résolution de problèmes mathématiques complexes.
Compréhension et raisonnement précis sur les images : Amélioration de la précision et de l'analyse détaillée dans des tâches telles que l'analyse d'images, la reconnaissance de contenu et la déduction logique visuelle.

Performance

Lors d'une analyse comparative approfondie avec des modèles de l'état de l'art (SoTA) d'échelle comparable, Qwen2.5-VL-32B-Instruct a démontré sa supériorité sur les modèles de référence, par exemple Mistral-Small-3.1-24B et Gemma-3-27B-IT, dépassant même Qwen2-VL-72B-Instruct, qui est plus grand.

Il présente notamment des avantages significatifs dans les tâches multimodales telles que MMMU, MMMU-Pro et MathVista, qui se concentrent sur le raisonnement complexe en plusieurs étapes. Sur MM-MT-Bench, un benchmark qui met l'accent sur l'évaluation subjective de l'expérience utilisateur, Qwen2.5-VL-32B-Instruct surpasse son prédécesseur Qwen2-VL-72B-Instruct d'une marge substantielle.

En plus d'exceller dans les capacités visuelles, Qwen2.5-VL-32B-Instruct a également atteint des performances de premier plan dans les capacités textuelles pures à la même échelle.

Cas de démonstration

Compréhension et raisonnement précis sur les images

Utilisateur : Je conduis un gros camion sur cette route, et il est 12 heures. Puis-je atteindre un endroit situé à 110 kilomètres avant 13 heures ?

Qwen2-VL-72B-Instruct :

Raisonnement mathématique

Utilisateur : Comme le montre la figure, les droites AB et CD se coupent au point O, OD coupe ∠AOE, ∠BOC = 50,0, alors ∠EOB = ()

Qwen2-VL-72B-Instruct :

Prochaine étape

Qwen2.5-VL-32B s'est concentré sur l'optimisation de l'expérience subjective et du raisonnement mathématique grâce à l'apprentissage par renforcement, dans le cadre du paradigme de la « pensée rapide ». Selon Alibaba, sa prochaine orientation de recherche donnera la priorité aux processus de raisonnement longs et efficaces afin de repousser les limites des modèles visuels en s'attaquant à des tâches de raisonnement visuel très complexes et à plusieurs étapes.

Source : Qwen (Alibaba)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Alibaba crédible ou pertinente ?

Voir aussi :

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3 , GPT-4O , et Claude

Vous avez lu gratuitement 2 881 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba dévoile Qwen2.5-VL-32B, un nouveau modèle d'IA multimodale combinant vision, langage et raisonnement mathématique

Identifiant
Mot de passe

Mot de passe oublié ?