Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

Le 14 novembre 2024 à 11:02, par Mathis Lucas

67PARTAGES

Un nouveau test de référence révèle à quel point l'IA d'aujourd'hui est médiocre en matière de raisonnement nécessaire à la résolution des problèmes de mathématiques avancées. Ce benchmark, appelé FrontierMath, a fait plancher les systèmes d'IA les plus avancés sur « des centaines de problèmes mathématiques originaux » élaborés par des experts. Le rapport de l'étude indique que le taux de réussite des systèmes d'IA les plus avancés est inférieur à 2 %, ce qui révèle les limites importantes de leurs capacités de raisonnement. Cela suggère que l'IA est encore loin de pouvoir remplacer les humains dans les tâches nécessitant un niveau élevé de raisonnement.

Les capacités de raisonnement des IA actuelles sont encore loin d'être suffisantes

FrontierMath est un benchmark de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des branches majeures des « mathématiques modernes ». Selon ses créateurs, FrontierMath comprend des problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle aux questions abstraites en géométrie algébrique et en théorie des catégories.

La résolution d'un problème typique nécessite plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et une vérification automatisée pour évaluer les modèles de manière fiable tout en minimisant le risque de contamination des données. FrontierMath a été mis au point par un groupe d'experts de la startup d'IA Epoch AI.

Les résultats médiocres obtenus par les modèles les plus avancés au monde révèlent qu'ils souffrent de profondes lacunes. Malgré la puissance croissante des grands modèles de langage (LLM) tels que GPT-4o et Gemini 1.5 Pro, ces systèmes résolvent moins de 2 % des problèmes de FrontierMath.

Envoyé par Epoch AI

Nous avons collaboré avec plus de 60 mathématiciens de premier plan pour créer des centaines de problèmes mathématiques originaux et exceptionnellement difficiles. Les systèmes d'IA actuels en résolvent moins de 2 %. L'objectif est de voir dans quelle mesure les modèles d'apprentissage automatique peuvent s'engager dans un raisonnement complexe, et jusqu'à présent, les résultats ont été décevants.

La particularité de FrontierMath est que la résolution de ces problèmes mathématiques nécessite « des chaînes étendues de raisonnement précis, chaque étape s'appuyant exactement sur la précédente ». Traditionnellement, les modèles d'IA ne sont pas « très performants » en matière de raisonnement étendu en général, et encore moins en ce qui concerne les mathématiques très avancées. C'est logique si l'on considère ce que font les modèles d'IA, au fond.

1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%. pic.twitter.com/sNVEB6SvyJ
— Epoch AI (@EpochAIResearch) November 8, 2024

Après avoir examiné les problèmes de FrontierMath, Terence Tao, lauréat de la médaille Fields, a déclaré à Epoch AI : « ces problèmes sont extrêmement difficiles à résoudre. Je pense qu'à court terme, la seule façon de les résoudre, à moins d'avoir un véritable expert dans le domaine, est de faire appel à un semi-expert, comme un étudiant diplômé dans un domaine connexe, peut-être associé à une IA moderne et à de nombreux autres progiciels d'algèbre ».

Les modèles d'IA actuels sont considérés comme de piètres apprenants généralistes

Si l'on prend l'exemple des LLM, ils sont entraînés à partir de tonnes de données pour déterminer ce que chaque mot suivant est le plus susceptible d'être sur la base de ces données. Bien qu'il soit évidemment possible d'orienter le modèle vers des mots différents, le processus est essentiellement probabiliste. Des modèles ont récemment tenté d'appliquer leur « pensée probabiliste » d'une manière plus orientée vers les étapes intermédiaires de cette « pensée ».

En d'autres termes, nous avons assisté à une évolution vers des modèles d'IA qui tentent de raisonner à travers leur pensée, plutôt que de sauter simplement à une conclusion probabiliste. Bien sûr, ces étapes individuelles du raisonnement peuvent elles-mêmes être obtenues de manière probabiliste. Selon les experts, « il est clair que nous sommes encore loin d'avoir des modèles d'IA qui atteignent les capacités de raisonnement des plus brillants d'entre nous ».

Même avec l'accès à des outils comme Python, qui permet aux modèles d'IA d'écrire et d'exécuter du code pour tester des hypothèses et vérifier des résultats intermédiaires, ils n'ont pas été à la hauteur. Epoch AI a évalué six des modèles d'IA les plus avancés, dont GPT-4o, Gemini 1.5 Pro et Claude 3.5 Sonnet, et a constaté qu'aucun ne pouvait résoudre plus de 2 % des problèmes. Selon Epoch AI, FrontierMath offre un aperçu fascinant des limites de l'IA.

Sur des benchmarks tels que GSM-8K et MATH, les principaux systèmes d'IA obtiennent aujourd'hui des résultats supérieurs à 90 %, mais ces tests commencent à approcher de la saturation. L'un des principaux problèmes est la contamination des données : les modèles d'IA sont souvent formés sur des problèmes qui ressemblent étroitement à ceux des ensembles de tests, ce qui rend leurs performances moins impressionnantes qu'il n'y paraît à première vue.

De nombreux experts considèrent qu'il s'agit là d'une preuve que les modèles d'IA actuels sont de « piètres apprenants généralistes ». FrontierMath a été conçu pour être beaucoup plus difficile que les tests mathématiques traditionnels que les modèles d'IA ont déjà conquis. Les problèmes ont fait l'objet d'un examen par les pairs pour en vérifier l'exactitude et les ambiguïtés. Environ un problème sur vingt (5 %) a dû être corrigé au cours du processus de révision.

Ce taux est comparable à celui d'autres grands critères de référence en matière d'apprentissage automatique. Par ailleurs, Epoch AI et son collège de scientifiques n'ont pas publié les problèmes du benchmark FrontierMath, de sorte que les entreprises spécialisées dans l'IA ne peuvent pas s'entraîner contre ces problèmes.

Les benchmarks du secteur de l'IA : s'agit-il d'un simple argument marketing ?

La différence frappante entre les résultats des tests standard et ceux de FrontierMath met en évidence un problème fondamental dans l'évaluation comparative de l'IA : « les tests ne mesurent que des compétences spécifiques et limitées ». Les entreprises spécialisées dans l'IA dépensent des millions pour optimiser leurs modèles d'IA en fonction de ces critères de référence standard. De nombreux experts affirment que ces benchmarks servent d'outil de marketing.

8/10 Mathematics offers a uniquely suitable sandbox for evaluating complex reasoning. It requires creativity and extended chains of precise logic—often involving intricate proofs—that must be meticulously planned and executed, yet...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.