Un nouveau test de référence révèle à quel point l'IA d'aujourd'hui est médiocre en matière de raisonnement nécessaire à la résolution des problèmes de mathématiques avancées. Ce benchmark, appelé FrontierMath, a fait plancher les systèmes d'IA les plus avancés sur « des centaines de problèmes mathématiques originaux » élaborés par des experts. Le rapport de l'étude indique que le taux de réussite des systèmes d'IA les plus avancés est inférieur à 2 %, ce qui révèle les limites importantes de leurs capacités de raisonnement. Cela suggère que l'IA est encore loin de pouvoir remplacer les humains dans les tâches nécessitant un niveau élevé de raisonnement.Les capacités de raisonnement des IA actuelles sont encore loin d'être suffisantes
FrontierMath est un benchmark de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des branches majeures des « mathématiques modernes ». Selon ses créateurs, FrontierMath comprend des problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle aux questions abstraites en géométrie algébrique et en théorie des catégories.
La résolution d'un problème typique nécessite plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et une vérification automatisée pour évaluer les modèles de manière fiable tout en minimisant le risque de contamination des données. FrontierMath a été mis au point par un groupe d'experts de la startup d'IA Epoch AI.
Les résultats médiocres obtenus par les modèles les plus avancés au monde révèlent qu'ils souffrent de profondes lacunes. Malgré la puissance croissante des grands modèles de langage (LLM) tels que GPT-4o et Gemini 1.5 Pro, ces systèmes résolvent moins de 2 % des problèmes de FrontierMath.
1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%. pic.twitter.com/sNVEB6SvyJ
— Epoch AI (@EpochAIResearch) November 8, 2024
Après avoir examiné les problèmes de FrontierMath, Terence Tao, lauréat de la médaille Fields, a déclaré à Epoch AI : « ces problèmes sont extrêmement difficiles à résoudre. Je pense qu'à court terme, la seule façon de les résoudre, à moins d'avoir un véritable expert dans le domaine, est de faire appel à un semi-expert, comme un étudiant diplômé dans un domaine connexe, peut-être associé à une IA moderne et à de nombreux autres progiciels d'algèbre ».
Les modèles d'IA actuels sont considérés comme de piètres apprenants généralistes
Si l'on prend l'exemple des LLM, ils sont entraînés à partir de tonnes de données pour déterminer ce que chaque mot suivant est le plus susceptible d'être sur la base de ces données. Bien qu'il soit évidemment possible d'orienter le modèle vers des mots...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
