Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

Le 14 novembre 2024 à 11:02, par Mathis Lucas

79PARTAGES

Un nouveau test de référence révèle à quel point l'IA d'aujourd'hui est médiocre en matière de raisonnement nécessaire à la résolution des problèmes de mathématiques avancées. Ce benchmark, appelé FrontierMath, a fait plancher les systèmes d'IA les plus avancés sur « des centaines de problèmes mathématiques originaux » élaborés par des experts. Le rapport de l'étude indique que le taux de réussite des systèmes d'IA les plus avancés est inférieur à 2 %, ce qui révèle les limites importantes de leurs capacités de raisonnement. Cela suggère que l'IA est encore loin de pouvoir remplacer les humains dans les tâches nécessitant un niveau élevé de raisonnement.

Les capacités de raisonnement des IA actuelles sont encore loin d'être suffisantes

FrontierMath est un benchmark de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des branches majeures des « mathématiques modernes ». Selon ses créateurs, FrontierMath comprend des problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle aux questions abstraites en géométrie algébrique et en théorie des catégories.

La résolution d'un problème typique nécessite plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et une vérification automatisée pour évaluer les modèles de manière fiable tout en minimisant le risque de contamination des données. FrontierMath a été mis au point par un groupe d'experts de la startup d'IA Epoch AI.

Les résultats médiocres obtenus par les modèles les plus avancés au monde révèlent qu'ils souffrent de profondes lacunes. Malgré la puissance croissante des grands modèles de langage (LLM) tels que GPT-4o et Gemini 1.5 Pro, ces systèmes résolvent moins de 2 % des problèmes de FrontierMath.

Envoyé par Epoch AI

Nous avons collaboré avec plus de 60 mathématiciens de premier plan pour créer des centaines de problèmes mathématiques originaux et exceptionnellement difficiles. Les systèmes d'IA actuels en résolvent moins de 2 %. L'objectif est de voir dans quelle mesure les modèles d'apprentissage automatique peuvent s'engager dans un raisonnement complexe, et jusqu'à présent, les résultats ont été décevants.

La particularité de FrontierMath est que la résolution de ces problèmes mathématiques nécessite « des chaînes étendues de raisonnement précis, chaque étape s'appuyant exactement sur la précédente ». Traditionnellement, les modèles d'IA ne sont pas « très performants » en matière de raisonnement étendu en général, et encore moins en ce qui concerne les mathématiques très avancées. C'est logique si l'on considère ce que font les modèles d'IA, au fond.

1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%. pic.twitter.com/sNVEB6SvyJ
— Epoch AI (@EpochAIResearch) November 8, 2024

Après avoir examiné les problèmes de FrontierMath, Terence Tao, lauréat de la médaille Fields, a déclaré à Epoch AI : « ces problèmes sont extrêmement difficiles à résoudre. Je pense qu'à court terme, la seule façon de les résoudre, à moins d'avoir un véritable expert dans le domaine, est de faire appel à un semi-expert, comme un étudiant diplômé dans un domaine connexe, peut-être associé à une IA moderne et à de nombreux autres progiciels d'algèbre ».

Les modèles d'IA actuels sont considérés comme de piètres apprenants généralistes

Si l'on prend l'exemple des LLM, ils sont entraînés à partir de tonnes de données pour déterminer ce que chaque mot suivant est le plus susceptible d'être sur la base de ces données. Bien qu'il soit évidemment possible d'orienter le modèle vers des mots...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

Identifiant
Mot de passe

Mot de passe oublié ?