Depuis le 5 décembre 2024, OpenAI a lancé son événement spécial "Shipmas" qui a duré 12 jours consécutifs. Durant cette période, la société a dévoilé de nouvelles fonctionnalités et de nouveaux produits d'IA : notamment son générateur de vidéos par IA Sora, la fonction Vision de son Advanced Voice Mode, en plus d'une série d'outils et de fonctions conçues pour rendre l'utilisation de ChatGPT plus transparente au travail et dans la vie quotidienne.
Pour clôturer cet évènement, OpenAI a annoncé les modèles o3 et o3 mini, ses modèles d'IA de raisonnement de nouvelle génération. Mark Chen, vice-président de la recherche d'OpenAI, a montré les performances de o3 sur certains benchmarks, par rapport à o1, comme les mathématiques de concours (96,7 %) et les sciences de niveau doctoral (87,7 %).
OpenAI et le concours ARC Prize ont également expliqué comment o3 a obtenu un score de 76 % sur le benchmark ARC-AGI, qui comprend de nouveaux ensembles de données non publiées. Le benchmark ARC-AGI est conçu pour tester la capacité à apprendre à la volée des compétences nouvelles et distinctes à chaque nouvelle tâche.
Le modèle o3 mini est conçu pour être un modèle rentable qui équilibre les performances. Il dispose de trois niveaux d'effort différents et peut adapter son temps de raisonnement en fonction de la difficulté du problème. "Un gain incroyable en termes de coût et de performance", a déclaré le PDG Sam Altman.
Selon OpenAI, o3 et o3 mini ont donc réalisé d'incroyables percées en matière d'intelligence. Mais ils ne sont pas encore prêts à être rendus publics. OpenAI accorde un accès anticipé à o3 et o3 mini pour des tests de sécurité à partir d'aujourd'hui. Les demandes d'adhésion au programme de test des modèles sont acceptées sur une base continue et se terminent le 10 janvier.
Voici les informations sur l'accès anticipé pour les tests de sécurité :NEW: OpenAI just announced 'o3', a breakthrough AI model that significantly surpasses all previous models in benchmarks.
— Rowan Cheung (@rowancheung) December 20, 2024
—On ARC-AGI: o3 more than triples o1’s score on low compute and surpasses a score of 87%
—On EpochAI’s Frontier Math: o3 set a new record, solving 25.2% of… pic.twitter.com/mELIIFHLe5
Tests de sécurité à l'ère du raisonnement
Les modèles deviennent rapidement plus performants, ce qui signifie que de nouvelles techniques de modélisation, d'évaluation et de test des menaces sont nécessaires. En tant qu'entreprise, nous investissons beaucoup dans ces efforts, par exemple en concevant de nouvelles techniques de mesure dans le cadre de notre Preparedness Framework, et nous nous concentrons sur les domaines dans lesquels les modèles de raisonnement avancés, comme notre série o, peuvent présenter des risques accrus. Nous pensons que le monde bénéficiera d'une recherche accrue en matière de modélisation des menaces, d'analyse de la sécurité, d'évaluation de la sécurité, d'élicitation des capacités, etc.
L'accès anticipé est flexible pour les chercheurs en sécurité. Vous pouvez explorer des sujets tels que :
Nous espérons que ces réflexions permettront de dégager des conclusions précieuses et contribueront à repousser les limites de la recherche sur la sécurité de manière plus générale. Ce document ne remplace pas les tests de sécurité formels ou les processus de l'équipe rouge.
Les modèles deviennent rapidement plus performants, ce qui signifie que de nouvelles techniques de modélisation, d'évaluation et de test des menaces sont nécessaires. En tant qu'entreprise, nous investissons beaucoup dans ces efforts, par exemple en concevant de nouvelles techniques de mesure dans le cadre de notre Preparedness Framework, et nous nous concentrons sur les domaines dans lesquels les modèles de raisonnement avancés, comme notre série o, peuvent présenter des risques accrus. Nous pensons que le monde bénéficiera d'une recherche accrue en matière de modélisation des menaces, d'analyse de la sécurité, d'évaluation de la sécurité, d'élicitation des capacités, etc.
L'accès anticipé est flexible pour les chercheurs en sécurité. Vous pouvez explorer des sujets tels que :
- Développer des évaluations robustes : Construire des évaluations pour évaluer des capacités précédemment identifiées ou de nouvelles capacités potentielles ayant des implications significatives en matière de sécurité ou de sûreté. Nous encourageons les chercheurs à explorer des idées qui mettent en évidence des modèles de menace identifiant des capacités, des comportements et des propensions spécifiques susceptibles de poser des risques concrets liés aux évaluations qu'ils soumettent.
- Créer des démonstrations de capacités potentiellement à haut risque : Élaborer des démonstrations contrôlées montrant comment les capacités avancées des modèles de raisonnement pourraient causer des dommages importants aux individus ou à la sécurité publique en l'absence d'autres mesures d'atténuation. Nous encourageons les chercheurs à se concentrer sur des scénarios qui ne sont pas possibles avec les modèles ou les outils actuellement largement adoptés.
Nous espérons que ces réflexions permettront de dégager des conclusions précieuses et contribueront à repousser les limites de la recherche sur la sécurité de manière plus générale. Ce document ne remplace pas les tests de sécurité formels ou les processus de l'équipe rouge.
L'événement spécial d'OpenAI devrait avoir un impact significatif sur l'industrie de l'IA. Il démontre l'engagement d'OpenAI en faveur de l'innovation rapide et sa capacité à susciter l'enthousiasme du public autour des avancées de l'IA. Pour rappel, le lancement de ChatGPT par OpenAI à la fin du mois de novembre 2022 a lancé une véritable course à l'IA générative, ce qui a provoqué un boom des investissements dans le secteur et la recherche en matière d'IA.
Mais OpenAI suscite également les controverses actuellement. Elon Musk a notamment déposé une injonction pour stopper la transition d'OpenAI vers un modèle à but lucratif. Les principales cibles de l'injonction sont Sam Altman, Reid Hoffman, Microsoft et ses investissements de plusieurs milliards de dollars dans OpenAI. Récemment, Meta Platforms, société mère de Facebook, a apporté son soutien à cette action via une lettre déposée au procureur général de Californie.
Source : Programme d'accès anticipé d'OpenAI
Et vous ?
Pensez-vous que ces nouveaux modèles d'OpenAI sont crédibles ou pertinents ?
Quel est votre avis sur cette annonce ?
Voir aussi :
Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI, qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale
Annonce du Prix ARC : un concours de plus d'un million de dollars pour les progrès de l'AGI open-source, car une approche open-source permettrait de générer de nouvelles idées pour atteindre l'AGI
GPT-5, le prochain grand projet d'OpenAI dans le domaine de l'IA, est en retard sur le calendrier et est très coûteux. L'entreprise manque de sources de données fiables et fait face à des défis techniques
Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3