
Le géant technologique chinois Alibaba a réalisé une nouvelle avancée significative dans le domaine de l'intelligence artificielle (IA). Récemment, l'entreprise a mis en libre accès son dernier modèle multimodal, Qwen2.5-VL-32B-Instruct. Ce nouveau modèle fait partie de la série Qwen2.5, qui comprend également les versions 3B, 7B et 72B. La version 32B donne la priorité à l'exécution locale pratique tout en maintenant des performances élevées.
Qwen, également appelé Tongyi Qianwen, est une famille de grands modèles de langage (LLM) développés par Alibaba Cloud. En juillet 2024, il a été classé comme le meilleur modèle de langage chinois dans certains benchmarks et troisième au niveau mondial derrière les meilleurs modèles d'Anthropic et d'OpenAI.
La sortie de Qwen2.5-VL-32B-Instruct fait suite au lancement par Alibaba d'une nouvelle version de son modèle d'IA Qwen 2.5-Max, qui selon l'entreprise surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B.
Qwen2.5-VL-32B, optimisé par apprentissage par renforcement, excelle dans plusieurs domaines. Tout d'abord, ses réponses sont plus en phase avec les habitudes cognitives humaines, ce qui se traduit par une expérience de conversation plus naturelle et plus fluide. Deuxièmement, il présente une amélioration significative des capacités de raisonnement mathématique. Qu'il s'agisse de problèmes mathématiques complexes ou d'analyses géométriques, Qwen2.5-VL-32B fournit des analyses et des raisonnements précis et clairs. En outre, sa précision en matière d'analyse d'images, de reconnaissance de contenu et de déduction logique visuelle a été considérablement améliorée, ce qui permet une analyse plus nuancée des données multimodales.
Caractéristiques du modèle
Vers fin janvier 2025, Alibaba a lancé la série de modèles Qwen2.5-VL, qui a fait l'objet d'une grande attention et de commentaires positifs de la part de la communauté. S'appuyant sur la série Qwen2.5-VL, la firme a continué à optimiser le modèle en utilisant l'apprentissage par renforcement et a mis en open-source le nouveau modèle VL avec la très appréciée échelle de paramètres 32B sous la licence Apache 2.0 - Qwen2.5-VL-32B-Instruct. Par rapport aux modèles de la série Qwen2.5-VL précédemment publiés, les caractéristiques de ce modèle VL 32B sont les suivantes :
- Réponses plus conformes aux préférences humaines : Le style de sortie a été ajusté pour fournir des réponses plus détaillées et mieux formatées qui correspondent davantage aux préférences humaines.
- Raisonnement mathématique : Amélioration significative de la précision de la résolution de problèmes mathématiques complexes.
- Compréhension et raisonnement précis sur les images : Amélioration de la précision et de l'analyse détaillée dans des tâches telles que l'analyse d'images, la reconnaissance de contenu et la déduction logique visuelle.
Performance
Lors d'une analyse comparative approfondie avec des modèles de l'état de l'art (SoTA) d'échelle comparable, Qwen2.5-VL-32B-Instruct a démontré sa supériorité sur les modèles de référence, par exemple Mistral-Small-3.1-24B et Gemma-3-27B-IT, dépassant même Qwen2-VL-72B-Instruct, qui est plus grand.
Il présente notamment des avantages significatifs dans les tâches multimodales telles que MMMU, MMMU-Pro et MathVista, qui se concentrent sur le raisonnement complexe en plusieurs étapes. Sur MM-MT-Bench, un benchmark qui met l'accent sur l'évaluation subjective de l'expérience utilisateur, Qwen2.5-VL-32B-Instruct surpasse son prédécesseur Qwen2-VL-72B-Instruct d'une marge substantielle.
En plus d'exceller dans les capacités visuelles, Qwen2.5-VL-32B-Instruct a également atteint des performances de premier plan dans les capacités textuelles pures à la même échelle.
Cas de démonstration
Compréhension et raisonnement précis sur les images
Utilisateur : Je conduis un gros camion sur cette route, et il est 12 heures. Puis-je atteindre un endroit situé à 110 kilomètres avant 13 heures ?
Qwen2-VL-72B-Instruct :
Raisonnement mathématique
Utilisateur : Comme le montre la figure, les droites AB et CD se coupent au point O, OD coupe ∠AOE, ∠BOC = 50,0, alors ∠EOB = ()
Qwen2-VL-72B-Instruct :
Prochaine étape
Qwen2.5-VL-32B s'est concentré sur l'optimisation de l'expérience subjective et du raisonnement mathématique grâce à l'apprentissage par renforcement, dans le cadre du paradigme de la « pensée rapide ». Selon Alibaba, sa prochaine orientation de recherche donnera la priorité aux processus de raisonnement longs et efficaces afin de repousser les limites des modèles visuels en s'attaquant à des tâches de raisonnement visuel très complexes et à plusieurs étapes.
Source : Qwen (Alibaba)
Et vous ?


Voir aussi :


Vous avez lu gratuitement 0 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.