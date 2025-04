Aujourd'hui, nous lançons OpenAI o3 et o4-mini, les derniers-nés de notre série o de modèles entraînés à réfléchir plus longtemps avant de répondre. Ce sont les modèles les plus intelligents que nous ayons publiés à ce jour, ce qui représente un changement radical dans les capacités de ChatGPT pour tout le monde, des utilisateurs curieux aux chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière active tous les outils de ChatGPT, y compris la recherche sur le Web, l'analyse des fichiers téléchargés et d'autres données avec Python, le raisonnement approfondi sur les entrées visuelles et même la génération d'images. Ces modèles sont entraînés à raisonner sur le moment et la manière d'utiliser les outils pour produire des réponses détaillées et réfléchies dans les bons formats de sortie, généralement en moins d'une minute, afin de résoudre des problèmes plus complexes. Cela leur permet d'aborder plus efficacement des questions à multiples facettes, une étape vers un ChatGPT plus agentique, capable d'exécuter des tâches en votre nom. La puissance combinée d'un raisonnement de pointe et d'un accès complet aux outils se traduit par des performances significativement plus élevées dans les tests académiques et les tâches du monde réel, établissant une nouvelle norme en termes d'intelligence et d'utilité.OpenAI o3 est notre modèle de raisonnement le plus puissant qui repousse les frontières du codage, des mathématiques, de la science, de la perception visuelle et plus encore. Il établit un nouveau SOTA sur des benchmarks tels que Codeforces, SWE-bench (sans construire un échafaudage personnalisé spécifique au modèle), et MMMU. Il est idéal pour les requêtes complexes nécessitant une analyse à multiples facettes et dont les réponses peuvent ne pas être immédiatement évidentes. Il est particulièrement performant pour les tâches visuelles telles que l'analyse d'images, de tableaux et de graphiques. Dans les évaluations réalisées par des experts externes, o3 commet 20 % d'erreurs majeures de moins qu'OpenAI o1 sur des tâches difficiles du monde réel, excellant particulièrement dans des domaines tels que la programmation, le commerce/le conseil et l'idéation créative. Les premiers testeurs ont souligné sa rigueur analytique en tant que partenaire de réflexion et ont insisté sur sa capacité à générer et à évaluer de manière critique de nouvelles hypothèses, en particulier dans les contextes de la biologie, des mathématiques et de l'ingénierie.OpenAI o4-mini est un modèle plus petit optimisé pour un raisonnement rapide et rentable. Il atteint des performances remarquables pour sa taille et son coût, en particulier dans les tâches mathématiques, de codage et visuelles. Il s'agit du modèle de référence le plus performant sur AIME 2024 et 2025. Dans les évaluations d'experts, il surpasse également son prédécesseur, o3-mini, dans les tâches non-STEM ainsi que dans des domaines tels que la science des données. Grâce à son efficacité, o4-mini prend en charge des limites d'utilisation nettement plus élevées que o3, ce qui en fait une option solide pour les questions à haut volume et à haut débit qui bénéficient d'un raisonnement.Les évaluateurs experts externes ont estimé que les deux modèles démontraient un meilleur suivi des instructions et des réponses plus utiles et vérifiables que leurs prédécesseurs, grâce à l'amélioration de l'intelligence et à l'inclusion de sources Web. Par rapport aux itérations précédentes de nos modèles de raisonnement, ces deux modèles devraient également sembler plus naturels et conversationnels, en particulier parce qu'ils font référence à la mémoire et aux conversations passées pour rendre les réponses plus personnalisées et plus pertinentes.