IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

FrontierMath a été financé par OpenAI : un révélateur des défis éthiques de l'IA
Et des questions sur la validité et la transparence des évaluations

Le , par Bruno

16PARTAGES

3  0 
L’affaire OpenAI-FrontierMath met en lumière des problématiques cruciales concernant la transparence, l’éthique et la sécurité dans le domaine de l’intelligence artificielle. En annonçant les performances impressionnantes de son modèle o3 sur le benchmark FrontierMath, OpenAI a suscité autant d’admiration que de controverses. L’accès exclusif d’OpenAI aux données et solutions de FrontierMath, couplé à l’absence de divulgation initiale sur le financement, soulève des questions sur la validité des évaluations et la confiance dans les processus d’expérimentation. Cet épisode illustre non seulement les limites des accords verbaux en matière de conformité, mais aussi les risques associés à une utilisation potentielle des benchmarks comme levier de capacités, au détriment d’une évaluation équitable et de la sécurité globale des modèles d’IA.

Avant novembre 2024, Epoch AI s’est engagé dans le développement de FrontierMath, un benchmark ambitieux pour évaluer les compétences en mathématiques. Pour ce projet, des mathématiciens indépendants ont été rémunérés entre 300 et 1 000 dollars pour leur contribution, sans qu’ils soient informés clairement de l’identité du financeur ni des parties ayant accès aux résultats.

Le 7 novembre 2024, une première version de leur article a été publiée, sans mention du financement. Il semble que le contrat liant Epoch AI à OpenAI interdisait toute divulgation avant l’annonce officielle d’o3.

Le 20 décembre 2024, OpenAI a annoncé que son modèle o3 avait obtenu des performances inédites, avec un score de 25 % sur FrontierMath, contre 2 % pour le précédent record. Le même jour, Epoch AI a mis à jour son article (version v5) pour révéler qu’OpenAI avait entièrement financé le projet et disposait d’un accès exclusif aux problèmes les plus complexes et à leurs solutions.

Citation Envoyé par Epoch AI
Nous vous présentons FrontierMath, une référence de centaines de problèmes de mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des grandes branches des mathématiques modernes, depuis les problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle jusqu'aux questions abstraites en géométrie algébrique et en théorie des catégories. La résolution d'un problème typique requiert plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et des vérifications automatisées pour évaluer les modèles de manière fiable tout en respectant l'environnement.

Les modèles d'IA de pointe actuels résolvent moins de 2 % des problèmes, ce qui révèle un écart considérable entre les capacités de l'IA et les prouesses de la communauté mathématique. Au fur et à mesure que les systèmes d'IA progressent vers des capacités mathématiques de niveau expert, FrontierMath offre un banc d'essai rigoureux qui quantifie leurs progrès.

Maintenant, personne ne sait vraiment ce qui se passe derrière o3 (ce billet contient quelques hypothèses sur o1), mais s'ils suivent le type de mise à l'échelle du temps d'inférence utilisé par les modèles publiés par d'autres laboratoires frontaliers qui utilisent probablement des techniques avancées de chaîne de pensée combinées avec une auto-amélioration récursive et un déroulement MCMC contre un vérificateur de modèle de récompense de processus (PRM), FrontierMath pourrait être une excellente tâche pour valider le PRM.


Un modèle qui effectue une mise à l'échelle du calcul du temps d'inférence pourrait grandement bénéficier d'un modèle de récompense de vérificateur de processus pour la recherche en amont sur l'espace de sortie ou RL sur la chaîne de pensée, et de tels repères pourraient constituer des données de très bonne qualité pour valider des vérificateurs de raisonnement universels et généralisables - une chose vraiment difficile à obtenir autrement sur des tâches difficiles.

Il serait formidable de savoir que le benchmark a été utilisé pour une seule évaluation et rien d'autre. Cela signifierait que le benchmark peut être considéré comme totalement intact et qu'il peut être utilisé pour des évaluations équitables comparant d'autres modèles à l'avenir.

Analyse des enjeux

Les implications de cette situation ont suscité des inquiétudes dès la mise à jour de décembre, amplifiées par des éléments récemment révélés.

  1. Structure du benchmark : FrontierMath est divisé en trois niveaux de difficulté :
    • 25 % de problèmes de niveau olympique ;
    • 50 % de problèmes d’une difficulté intermédiaire ;
    • 25 % de problèmes complexes nécessitant plusieurs semaines de travail par des experts.

    L’annonce des 25 % de réussite d’o3 n’a pas précisé la répartition entre ces niveaux, laissant planer le doute sur la réelle portée de cette performance. Il est probable qu’une majorité des problèmes résolus appartenaient aux catégories les moins complexes.
  2. Accès privilégié d’OpenAI : En théorie, OpenAI aurait pu entraîner ses modèles sur ces données. Bien qu’ils aient verbalement accepté de ne pas le faire, cet accord informel est insuffisant pour garantir l’intégrité du benchmark. Même sans entraînement direct, l’accès exclusif aux solutions aurait pu renforcer les capacités d’o3, notamment en validant des mécanismes avancés comme les chaînes de pensée ou les modèles de récompense.

Risques pour l’évaluation et la sécurité

L’utilisation d’un benchmark comme FrontierMath uniquement à des fins d’évaluation aurait permis de préserver son intégrité pour des comparaisons futures. Cependant, la situation actuelle soulève des préoccupations majeures :

  • transparence et éthique : L’absence de divulgation initiale sur le financement et l’accès exclusif pourrait entacher la crédibilité d’Epoch AI et d’OpenAI ;
  • impact sur la sécurité de l’IA : Certains mathématiciens n’auraient peut-être pas participé au projet s’ils avaient été informés du rôle d’OpenAI, posant la question du consentement éclairé.

Les risques d’une gouvernance laxiste dans la recherche en intelligence artificielle

Le projet FrontierMath, développé par Epoch AI en collaboration avec OpenAI, soulève des interrogations majeures sur la transparence, l’éthique et les répercussions pour la recherche en intelligence artificielle. Bien que ce benchmark soit présenté comme une avancée clé dans l’évaluation des compétences mathématiques des modèles d’IA, les pratiques entourant sa création et son utilisation suscitent des inquiétudes légitimes.

Epoch AI a rémunéré des mathématiciens pour leur participation, sans toutefois leur révéler qui finançait le projet ni qui bénéficierait d’un accès exclusif aux résultats. Cette absence de clarté a été aggravée par la publication initiale sur arXiv en novembre 2024, qui ne mentionnait pas le rôle d’OpenAI. Une telle opacité soulève des enjeux éthiques importants, notamment concernant le consentement éclairé des contributeurs. Si ces derniers avaient su qu’OpenAI disposerait d’un accès privilégié aux données, certains auraient pu refuser de s’impliquer.

L’octroi à OpenAI d’un accès exclusif à ces données sur la base d’un simple accord verbal de ne pas les utiliser pour l’entraînement des modèles est une décision discutable. Les accords verbaux manquent de force contraignante, en particulier dans un domaine où les gains financiers peuvent être substantiels. Sans cadre contractuel clair, la confiance dans l’intégrité de ce projet est mise en doute.

L’annonce des performances d’o3, avec un taux de réussite de 25 % par rapport à un précédent record de 2 %, semble impressionnante, mais manque de transparence. L’absence de précisions sur la répartition des niveaux de difficulté des problèmes résolus rend cette avancée difficile à évaluer. Si la majorité des solutions concerne des problèmes simples, l’impact réel pourrait être exagéré, soulignant le besoin de normes rigoureuses pour garantir des comparaisons équitables entre modèles.

Même sans entraîner directement les modèles sur les données de FrontierMath, l’accès aux solutions peut faciliter la validation ou l’optimisation des modèles, notamment grâce à des techniques avancées comme l’apprentissage par renforcement ou les chaînes de pensée. Cela soulève des questions sur l’impact des ensembles de données exclusifs sur la sécurité et la compétitivité dans le domaine de l’IA. Un benchmark destiné à évaluer peut, en théorie, être détourné pour améliorer les performances des modèles, compromettant ainsi son impartialité.


Les préoccupations liées à la sécurité de l’IA sont exacerbées par l’ambiguïté entourant FrontierMath. Si OpenAI a effectivement tiré un avantage compétitif de cet accès exclusif, cela pourrait accentuer les disparités dans la recherche en IA. Par ailleurs, les mathématiciens ayant contribué sans être pleinement informés pourraient avoir participé, à leur insu, à des développements technologiques qu’ils auraient désapprouvés. Cela souligne l’importance d’une communication transparente entre les acteurs impliqués.

En conclusion, cette affaire illustre les défis croissants dans le domaine de l’intelligence artificielle : garantir la transparence, protéger les droits des contributeurs et préserver la confiance dans les outils d’évaluation. Il est essentiel d’établir des mécanismes de gouvernance solides pour prévenir de telles situations à l’avenir. Bien que prometteur, FrontierMath doit servir de point de départ pour mieux encadrer les collaborations entre chercheurs et entreprises technologiques.

Sources : Less Wrong, Epoch AI

Et vous ?

Quel est votre avis sur le sujet ?

Les arguments présentés dans le billet de blog de LessWrong sont-ils pertinents ?

L'absence de divulgation du rôle d'OpenAI dans le financement de FrontierMath pourrait-elle avoir influencé la participation des mathématiciens, notamment en termes de consentement éclairé ?

Les accords verbaux, comme celui entre Epoch AI et OpenAI concernant l'utilisation des données de FrontierMath, sont-ils suffisants pour garantir une conformité éthique et sécuritaire dans un domaine aussi sensible que l'intelligence artificielle ?

Voir aussi :

La transformation d'OpenAI en une véritable entreprise est en train de la déchirer : trois dirigeants démissionnent, tandis que des informations sur un changement potentiel de structure font surface

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux

Une erreur dans cette actualité ? Signalez-nous-la !