IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le nouveau modèle d'IA Qwen2-Math d'Alibaba excelle en mathématiques et surpasse ses concurrents
Il a fait preuve de performances supérieures en matière de raisonnement mathématique complexe

Le , par Jade Emy

12PARTAGES

6  0 
Le modèle Qwen2-Math d'Alibaba démontre des performances supérieures en matière de raisonnement mathématique complexe. Lors des évalutions, Qwen2-Math-72B-Instruct a surpassé les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Malgré cela, Alibaba continuera à améliorer la capacité de ses modèles à résoudre des problèmes mathématiques complexes et difficiles.

Alibaba avait présenté Qwen2, son grand modèle de langage open source, avec des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe. Alibaba affirmait consacrer ses efforts à l'amélioration des capacités avancées de Qwen, en particulier dans les domaines du codage et des mathématiques. Il annonçait également comme objectif d'ouvrir de nouveaux modèles pour accélérer l'IA open source.

Récemment, Alibaba a mis au point un modèle spécialisé pour résoudre des problèmes mathématiques complexes, surpassant les modèles phares d'OpenAI et d'Anthropic. Qwen2-Math est une version spécifique aux mathématiques du modèle Qwen2 récemment publié par Alibaba, qui est capable de résoudre des problèmes arithmétiques et mathématiques.

Le modèle open-source est disponible en trois tailles, de la plus petite avec 1,5 milliard de paramètres à la plus grande avec 72 milliards de paramètres. Les trois modèles obtiennent de bons résultats dans les évaluations axées sur les mathématiques, la version phare de 72 milliards surpassant les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques.


Voici les déclarations d'Alibaba pour cette annonce :

Au cours de l'année écoulée, nous avons consacré des efforts considérables à la recherche et à l'amélioration des capacités de raisonnement des grands modèles de langage, en mettant particulièrement l'accent sur leur capacité à résoudre des problèmes arithmétiques et mathématiques. Aujourd'hui, nous sommes ravis de présenter une série de grands modèles de langage spécifiques aux mathématiques de notre série Qwen2, Qwen2-Math et Qwen2-Math-Instruct-1.5B/7B/72B.

Qwen2-Math est une série de modèles de langage spécialisés en mathématiques construits sur les LLM de Qwen2, qui surpassent de manière significative les capacités mathématiques des modèles à source ouverte et même des modèles à source fermée (par exemple, GPT-4o). Nous espérons que Qwen2-Math pourra contribuer à la communauté pour la résolution de problèmes mathématiques complexes.

Nous évaluons nos modèles spécifiques aux mathématiques sur une série de critères mathématiques. Les résultats montrent que notre plus grand modèle spécifique aux mathématiques, Qwen2-Math-72B-Instruct, surpasse les modèles de pointe, notamment GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro et Llama-3.1-405B.

Qwen2-Math : Modèles de base

Les modèles de base de Qwen2-Math sont initialisés avec Qwen2-1.5B/7B/72B, puis pré-entraînés sur un corpus spécifique aux mathématiques. Ce corpus contient des textes web mathématiques, des livres, des codes, des questions d'examen et des données de pré-entraînement mathématiques synthétisées par Qwen2.

Qwen2-Math a été évalué sur trois benchmarks mathématiques anglais largement utilisés : GSM8K, Math et MMLU-STEM. Il a été également évalué sur trois benchmarks mathématiques chinois CMATH, GaoKao Math Cloze et GaoKao Math QA. Toutes les évaluations sont testées à l'aide d'une incitation à la réflexion en chaîne à quelques reprises.


Qwen2-Math-Instruct : Modèles adaptés à l'enseignement

Alibaba a d'abord formé un modèle de récompense spécifique aux mathématiques basé sur Qwen2-Math-72B. Ensuite, ils ont combiné ce signal de récompense dense avec un signal binaire indiquant si le modèle a répondu correctement. Ce signal combiné est utilisé comme supervision pour construire les données SFT par le biais de l'échantillonnage de rejet et également dans l'apprentissage par renforcement avec l'optimisation de politique relative de groupe (GRPO) après le SFT.

Qwen2-Math-Instruct a été évalué sur des benchmarks mathématiques en anglais et en chinois. En plus des repères largement utilisés, tels que GSM8K et Math, il y existe également d'autres examens qui sont beaucoup plus difficiles pour inspecter pleinement les capacités de Qwen2-Math-Instruct, tels que OlympiadBench, CollegeMath, GaoKao, AIME2024, et AMC2023. Les benchmarks mathématiques chinois utilisés sont CMATH, Gaokao (examen d'entrée à l'université chinoise 2024) et CN Middle School 24 (examen d'entrée à l'école secondaire chinoise 2024).

Alibaba présente également les performances de greedy, Maj@8 et RM@8 pour tous les benchmarks dans le cadre de zéro coup, sauf pour les benchmarks à choix multiples (y compris MMLU STEM et les problèmes à choix multiples dans GaoKao et CN Middle School 24) avec un cadre de 5 coups. Qwen2-Math-Instruct obtient les meilleures performances parmi les modèles de même taille, RM@8 surpassant Maj@8, en particulier dans les modèles 1,5B et 7B. Cela démontre l'efficacité du modèle de récompense mathématique.


Dans les évaluations de concours mathématiques plus complexes telles que AIME 2024 et AMC 2023, Qwen2-Math-Instruct obtient également de bons résultats dans divers contextes, notamment Greedy, Maj@64, RM@64 et RM@256.


Alibaba commente ces résultats en déclarant :

Cette fois-ci, nous lançons une nouvelle série de modèles axés sur les capacités mathématiques, Qwen2-Math, construits sur la base de Qwen2. Notre modèle phare, Qwen2-Math-72B-Instruct, surpasse les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Étant donné les limites actuelles de la prise en charge de l'Anglais uniquement, nous prévoyons de publier prochainement des modèles bilingues prenant en charge à la fois l'anglais et le chinois, le développement de modèles multilingues étant également en cours de préparation. En outre, nous continuerons à améliorer la capacité de nos modèles à résoudre des problèmes mathématiques complexes et difficiles.

Source : Qwen

Et vous ?

Pensez-vous que ces résultats sont crédibles ou pertinents ?
Avez-vous déjà utilisé cet outil ou un outil similaire, et si oui qu'en pensez-vous ?

Voir aussi :

Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3 , GPT-4O , et Claude

L'IA obtient la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques, avec les systèmes AlphaProof et AlphaGeometry 2 de Google DeepMind

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Une erreur dans cette actualité ? Signalez-nous-la !