Avant novembre 2024, Epoch AI s’est engagé dans le développement de FrontierMath, un benchmark ambitieux pour évaluer les compétences en mathématiques. Pour ce projet, des mathématiciens indépendants ont été rémunérés entre 300 et 1 000 dollars pour leur contribution, sans qu’ils soient informés clairement de l’identité du financeur ni des parties ayant accès aux résultats.
Le 7 novembre 2024, une première version de leur article a été publiée, sans mention du financement. Il semble que le contrat liant Epoch AI à OpenAI interdisait toute divulgation avant l’annonce officielle d’o3.
Le 20 décembre 2024, OpenAI a annoncé que son modèle o3 avait obtenu des performances inédites, avec un score de 25 % sur FrontierMath, contre 2 % pour le précédent record. Le même jour, Epoch AI a mis à jour son article (version v5) pour révéler qu’OpenAI avait entièrement financé le projet et disposait d’un accès exclusif aux problèmes les plus complexes et à leurs solutions.
Envoyé par Epoch AI
Maintenant, personne ne sait vraiment ce qui se passe derrière o3 (ce billet contient quelques hypothèses sur o1), mais s'ils suivent le type de mise à l'échelle du temps d'inférence utilisé par les modèles publiés par d'autres laboratoires frontaliers qui utilisent probablement des techniques avancées de chaîne de pensée combinées avec une auto-amélioration récursive et un déroulement MCMC contre un vérificateur de modèle de récompense de processus (PRM), FrontierMath pourrait être une excellente tâche pour valider le PRM.
Un modèle qui effectue une mise à l'échelle du calcul du temps d'inférence pourrait grandement bénéficier d'un modèle de récompense de vérificateur de processus pour la recherche en amont sur l'espace de sortie ou RL sur la chaîne de pensée, et de tels repères pourraient constituer des données de très bonne qualité pour valider des vérificateurs de raisonnement universels et généralisables - une chose vraiment difficile à obtenir autrement sur des tâches difficiles.
Il serait formidable de savoir que le benchmark a été utilisé pour une seule évaluation et rien d'autre. Cela signifierait que le benchmark peut être considéré comme totalement intact et qu'il peut être utilisé pour des évaluations équitables comparant d'autres modèles à l'avenir.
Analyse des enjeux
Les implications de cette situation ont suscité des inquiétudes dès la mise à jour de décembre, amplifiées par des éléments récemment révélés.
- Structure du benchmark : FrontierMath est divisé en trois niveaux de difficulté :
- 25 % de problèmes de niveau olympique ;
- 50 % de problèmes d’une difficulté intermédiaire ;
- 25 % de problèmes complexes nécessitant plusieurs semaines de travail par des experts.
L’annonce des 25 % de réussite d’o3 n’a pas précisé la répartition entre ces niveaux, laissant planer le doute sur la réelle portée de cette performance. Il est probable qu’une majorité des problèmes résolus appartenaient aux catégories les moins complexes. - Accès privilégié d’OpenAI : En théorie, OpenAI aurait pu entraîner ses modèles sur ces données. Bien qu’ils aient verbalement accepté de ne pas le faire, cet accord informel est insuffisant pour garantir l’intégrité du benchmark. Même sans entraînement direct, l’accès exclusif aux solutions aurait pu renforcer les capacités d’o3, notamment en validant des mécanismes avancés comme les chaînes de pensée ou les modèles de récompense.
Risques pour l’évaluation et la sécurité
L’utilisation d’un benchmark comme FrontierMath uniquement à des fins d’évaluation aurait permis de préserver son intégrité pour des comparaisons futures. Cependant, la situation actuelle soulève des préoccupations majeures :
- transparence et éthique : L’absence de divulgation initiale sur le financement et l’accès exclusif pourrait entacher la crédibilité d’Epoch AI et d’OpenAI ;
- impact sur la sécurité de l’IA : Certains mathématiciens n’auraient peut-être pas participé au projet s’ils avaient été informés du rôle d’OpenAI, posant la question du consentement éclairé.
Les risques d’une gouvernance laxiste dans la recherche en intelligence artificielle
Le projet FrontierMath, développé par Epoch AI en collaboration avec OpenAI, soulève des interrogations majeures sur la transparence, l’éthique et les répercussions pour la recherche en intelligence artificielle. Bien que ce benchmark soit présenté comme une avancée clé dans l’évaluation des compétences mathématiques des modèles d’IA, les pratiques entourant sa création et son utilisation suscitent des inquiétudes légitimes.
Epoch AI a rémunéré des mathématiciens pour leur participation, sans toutefois leur révéler qui finançait le projet ni qui bénéficierait d’un accès exclusif aux résultats. Cette absence de clarté a été aggravée par la publication initiale sur arXiv en novembre 2024, qui ne mentionnait pas le rôle d’OpenAI. Une telle opacité soulève des enjeux éthiques importants, notamment concernant le consentement éclairé des contributeurs. Si ces derniers avaient su qu’OpenAI disposerait d’un accès privilégié aux données, certains auraient pu refuser de s’impliquer.
L’octroi à OpenAI d’un accès exclusif à ces données sur la base d’un simple accord verbal de ne pas les utiliser pour l’entraînement des modèles est une décision discutable. Les accords verbaux manquent de force contraignante, en particulier dans un domaine où les gains financiers peuvent être substantiels. Sans cadre contractuel clair, la confiance dans l’intégrité de ce projet est mise en doute.
L’annonce des performances d’o3, avec un taux de réussite de 25 % par rapport à un précédent record de 2 %, semble impressionnante, mais manque de transparence. L’absence de précisions sur la répartition des niveaux de difficulté des problèmes résolus rend cette avancée difficile à évaluer. Si la majorité des solutions concerne des problèmes simples, l’impact réel pourrait être exagéré, soulignant le besoin de normes rigoureuses pour garantir des comparaisons équitables entre modèles.
Même sans entraîner directement les modèles sur les données de FrontierMath, l’accès aux solutions peut faciliter la validation ou l’optimisation des modèles, notamment grâce à des techniques avancées comme l’apprentissage par renforcement ou les chaînes de pensée. Cela soulève des questions sur l’impact des ensembles de données exclusifs sur la sécurité et la compétitivité dans le domaine de l’IA. Un benchmark destiné à évaluer peut, en théorie, être détourné pour améliorer les performances des modèles, compromettant ainsi son impartialité.
Les préoccupations liées à la sécurité de l’IA sont exacerbées par l’ambiguïté entourant FrontierMath. Si OpenAI a effectivement tiré un avantage compétitif de cet accès exclusif, cela pourrait accentuer les disparités dans la recherche en IA. Par ailleurs, les mathématiciens ayant contribué sans être pleinement informés pourraient avoir participé, à leur insu, à des développements technologiques qu’ils auraient désapprouvés. Cela souligne l’importance d’une communication transparente entre les acteurs impliqués.
En conclusion, cette affaire illustre les défis croissants dans le domaine de l’intelligence artificielle : garantir la transparence, protéger les droits des contributeurs et préserver la confiance dans les outils d’évaluation. Il est essentiel d’établir des mécanismes de gouvernance solides pour prévenir de telles situations à l’avenir. Bien que prometteur, FrontierMath doit servir de point de départ pour mieux encadrer les collaborations entre chercheurs et entreprises technologiques.
Sources : Less Wrong, Epoch AI
Et vous ?
Quel est votre avis sur le sujet ?
Les arguments présentés dans le billet de blog de LessWrong sont-ils pertinents ?
L'absence de divulgation du rôle d'OpenAI dans le financement de FrontierMath pourrait-elle avoir influencé la participation des mathématiciens, notamment en termes de consentement éclairé ?
Les accords verbaux, comme celui entre Epoch AI et OpenAI concernant l'utilisation des données de FrontierMath, sont-ils suffisants pour garantir une conformité éthique et sécuritaire dans un domaine aussi sensible que l'intelligence artificielle ?
Voir aussi :
La transformation d'OpenAI en une véritable entreprise est en train de la déchirer : trois dirigeants démissionnent, tandis que des informations sur un changement potentiel de structure font surface
OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux