L’affaire OpenAI-FrontierMath met en lumière des problématiques cruciales concernant la transparence, l’éthique et la sécurité dans le domaine de l’intelligence artificielle. En annonçant les performances impressionnantes de son modèle o3 sur le benchmark FrontierMath, OpenAI a suscité autant d’admiration que de controverses. L’accès exclusif d’OpenAI aux données et solutions de FrontierMath, couplé à l’absence de divulgation initiale sur le financement, soulève des questions sur la validité des évaluations et la confiance dans les processus d’expérimentation. Cet épisode illustre non seulement les limites des accords verbaux en matière de conformité, mais aussi les risques associés à une utilisation potentielle des benchmarks comme levier de capacités, au détriment d’une évaluation équitable et de la sécurité globale des modèles d’IA.Avant novembre 2024, Epoch AI s’est engagé dans le développement de FrontierMath, un benchmark ambitieux pour évaluer les compétences en mathématiques. Pour ce projet, des mathématiciens indépendants ont été rémunérés entre 300 et 1 000 dollars pour leur contribution, sans qu’ils soient informés clairement de l’identité du financeur ni des parties ayant accès aux résultats.
Le 7 novembre 2024, une première version de leur article a été publiée, sans mention du financement. Il semble que le contrat liant Epoch AI à OpenAI interdisait toute divulgation avant l’annonce officielle d’o3.
Le 20 décembre 2024, OpenAI a annoncé que son modèle o3 avait obtenu des performances inédites, avec un score de 25 % sur FrontierMath, contre 2 % pour le précédent record. Le même jour, Epoch AI a mis à jour son article (version v5) pour révéler qu’OpenAI avait entièrement financé le projet et disposait d’un accès exclusif aux problèmes les plus complexes et à leurs solutions.
Maintenant, personne ne sait vraiment ce qui se passe derrière o3 (ce billet contient quelques hypothèses sur o1), mais s'ils suivent le type de mise à l'échelle du temps d'inférence utilisé par les modèles publiés par d'autres laboratoires frontaliers qui utilisent probablement des techniques avancées de chaîne de pensée combinées avec une auto-amélioration récursive et un déroulement MCMC contre un vérificateur de modèle de récompense de processus (PRM), FrontierMath pourrait être une excellente tâche pour valider le PRM.
Un modèle qui effectue une mise à l'échelle du calcul du temps d'inférence pourrait grandement bénéficier d'un modèle de récompense de vérificateur de processus pour la recherche en amont sur l'espace de sortie ou RL sur la chaîne de pensée, et de tels repères pourraient constituer des données de très bonne qualité pour valider des vérificateurs de raisonnement universels et généralisables - une chose vraiment difficile à obtenir autrement sur des tâches difficiles.
Il serait formidable de savoir que le benchmark a été utilisé pour une seule évaluation et rien d'autre. Cela signifierait que le benchmark peut être considéré comme totalement intact et qu'il peut être utilisé pour des évaluations équitables comparant d'autres modèles à l'avenir.
Analyse des enjeux
Les implications de cette situation ont suscité des inquiétudes dès la mise à jour de décembre, amplifiées par des éléments récemment révélés.
- Structure du benchmark : FrontierMath...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.