IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

Le , par Mathis Lucas

79PARTAGES

4  0 
Un nouveau test de référence révèle à quel point l'IA d'aujourd'hui est médiocre en matière de raisonnement nécessaire à la résolution des problèmes de mathématiques avancées. Ce benchmark, appelé FrontierMath, a fait plancher les systèmes d'IA les plus avancés sur « des centaines de problèmes mathématiques originaux » élaborés par des experts. Le rapport de l'étude indique que le taux de réussite des systèmes d'IA les plus avancés est inférieur à 2 %, ce qui révèle les limites importantes de leurs capacités de raisonnement. Cela suggère que l'IA est encore loin de pouvoir remplacer les humains dans les tâches nécessitant un niveau élevé de raisonnement.

Les capacités de raisonnement des IA actuelles sont encore loin d'être suffisantes

FrontierMath est un benchmark de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des branches majeures des « mathématiques modernes ». Selon ses créateurs, FrontierMath comprend des problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle aux questions abstraites en géométrie algébrique et en théorie des catégories.


La résolution d'un problème typique nécessite plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et une vérification automatisée pour évaluer les modèles de manière fiable tout en minimisant le risque de contamination des données. FrontierMath a été mis au point par un groupe d'experts de la startup d'IA Epoch AI.

Les résultats médiocres obtenus par les modèles les plus avancés au monde révèlent qu'ils souffrent de profondes lacunes. Malgré la puissance croissante des grands modèles de langage (LLM) tels que GPT-4o et Gemini 1.5 Pro, ces systèmes résolvent moins de 2 % des problèmes de FrontierMath.

Citation Envoyé par Epoch AI


Nous avons collaboré avec plus de 60 mathématiciens de premier plan pour créer des centaines de problèmes mathématiques originaux et exceptionnellement difficiles. Les systèmes d'IA actuels en résolvent moins de 2 %. L'objectif est de voir dans quelle mesure les modèles d'apprentissage automatique peuvent s'engager dans un raisonnement complexe, et jusqu'à présent, les résultats ont été décevants.

La particularité de FrontierMath est que la résolution de ces problèmes mathématiques nécessite « des chaînes étendues de raisonnement précis, chaque étape s'appuyant exactement sur la précédente ». Traditionnellement, les modèles d'IA ne sont pas « très performants » en matière de raisonnement étendu en général, et encore moins en ce qui concerne les mathématiques très avancées. C'est logique si l'on considère ce que font les modèles d'IA, au fond.



Après avoir examiné les problèmes de FrontierMath, Terence Tao, lauréat de la médaille Fields, a déclaré à Epoch AI : « ces problèmes sont extrêmement difficiles à résoudre. Je pense qu'à court terme, la seule façon de les résoudre, à moins d'avoir un véritable expert dans le domaine, est de faire appel à un semi-expert, comme un étudiant diplômé dans un domaine connexe, peut-être associé à une IA moderne et à de nombreux autres progiciels d'algèbre ».

Les modèles d'IA actuels sont considérés comme de piètres apprenants généralistes

Si l'on prend l'exemple des LLM, ils sont entraînés à partir de tonnes de données pour déterminer ce que chaque mot suivant est le plus susceptible d'être sur la base de ces données. Bien qu'il soit évidemment possible d'orienter le modèle vers des mots...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/11/2024 à 13:46
Il serait intéressent de savoir quel pourcentage de personnes pourrait réellement répondre aux questions de ce benchmark. Personnellement, je trouve que 2% semble soudainement très optimiste.
2  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 14/11/2024 à 13:59
Citation Envoyé par jnspunk Voir le message
Il serait intéressent de savoir quel pourcentage de personnes pourrait réellement répondre aux questions de ce benchmark. Personnellement, je trouve que 2% semble soudainement très optimiste.
Le benchmark est confidentiel c'est dommage enfin je pense que je ne saurais même pas lire l'énoncé des problèmes
0  0