OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT

O3-mini est qualifié de « monstre de codage ultra-rapide »

Le 2 février 2025 à 11:00, par Anthony

43PARTAGES

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT, o3-mini est qualifié de « monstre de codage ultra-rapide »

OpenAI a introduit o3-mini, son nouveau modèle de raisonnement d'intelligence artificielle (IA) conçu pour améliorer la vitesse et la précision par rapport au modèle précédent o1. Il s'agit de la première fois que les utilisateurs gratuits de ChatGPT peuvent accéder à un modèle de raisonnement, même si les limites de vitesse sont semblables à celles de GPT-4o. Annoncé en décembre 2024, o3-mini est optimisé pour les tâches de mathématiques, de codage et de sciences. Il fournit des réponses 24 % plus rapidement qu'o1 tout en maintenant les niveaux de performance.

Ce développement fait suite au récent lancement du modèle de raisonnement chinois DeepSeek-R1, qui offre des performances similaires à o1 d'OpenAI pour 95 % moins cher, selon les benchmarks de la startup chinoise.

L'une des principales caractéristiques d'o3-mini est sa capacité à expliquer le raisonnement qui sous-tend ses réponses, ce qui va bien au-delà de la simple fourniture de résultats. Des benchmarks réalisés en décembre ont montré que o3 surpassait o1 dans les tâches de raisonnement et de codage, et OpenAI confirme que o3-mini surpasse o1 avec un coût et un temps de latence réduits.

OpenAI o3-mini est le modèle le plus récent et le plus économique de la série de modèles de raisonnement d'OpenAI. Prévu initialement pour décembre 2024, le modèle repousse les limites de ce que les petits modèles peuvent réaliser, offrant des capacités STEM (Science, Technologie, Ingénierie et Mathématiques) exceptionnelles - avec une force particulière dans les sciences, les mathématiques et le codage - tout en conservant le faible coût et la latence réduite de l'OpenAI o1-mini.

OpenAI o3-mini est le premier modèle de raisonnement de petite taille qui prend en charge les fonctionnalités très demandées par les développeurs, notamment l'appel de fonction, les sorties structurées et les messages de développeur, ce qui le rend prêt pour la production dès le départ. Comme OpenAI o1-mini et OpenAI o1-preview, o3-mini supportera le streaming . De plus, les développeurs peuvent choisir entre trois options d'effort de raisonnement - faible, moyen et élevé - afin d'optimiser leurs cas d'utilisation spécifiques. Cette flexibilité permet à o3-mini de « penser plus fort » lorsqu'il s'agit de relever des défis complexes ou de donner la priorité à la vitesse lorsque la latence est un problème. Cependant, o3-mini ne prend pas en charge les capacités de vision, les développeurs doivent donc continuer à utiliser OpenAI o1 pour les tâches de raisonnement visuel.

o3-mini est déployé dans l'API Chat Completions, l'API Assistants et l'API Batch à partir de ce 31 janvier 2025 pour les développeurs sélectionnés dans les niveaux d'utilisation 3 à 5 de l'API.

Les utilisateurs de ChatGPT Plus, Team et Pro peuvent accéder à OpenAI o3-mini à partir d'aujourd'hui, avec un accès Enterprise en février. o3-mini remplacera OpenAI o1-mini dans le sélecteur de modèle, offrant des limites de taux plus élevées et une latence plus faible, ce qui en fait un choix convaincant pour le codage, les STEM et les tâches de résolution de problèmes logiques.

Dans le cadre de la mise à jour, OpenAI a triplé les limites de messages pour les utilisateurs Plus et Team, passant de 50 messages par jour avec o1-mini à 150 messages par jour avec o3-mini. En outre, o3-mini fonctionne désormais avec la recherche pour trouver des réponses actualisées avec des liens vers des sources web pertinentes. Il s'agit d'un premier prototype, car OpenAI travaille actuellement à l'intégration de la recherche dans ses modèles de raisonnement.

À partir de ce 31 janvier, les utilisateurs du plan gratuit peuvent également essayer OpenAI o3-mini en sélectionnant « Raisonner » dans le compositeur de messages ou en régénérant une réponse. C'est la première fois qu'un modèle de raisonnement est mis à la disposition des utilisateurs gratuits de ChatGPT.

Alors qu'OpenAI o1 reste le modèle de raisonnement de connaissances générales le plus large de l'entreprise, o3-mini fournit une alternative spécialisée pour les domaines techniques nécessitant précision et rapidité. Dans ChatGPT, o3-mini utilise un effort de raisonnement moyen pour fournir un compromis équilibré entre vitesse et précision. Tous les utilisateurs payants auront également la possibilité de sélectionner o3-mini-high dans le sélecteur de modèle pour une version d'intelligence supérieure qui prend un peu plus de temps pour générer des réponses. Les utilisateurs professionnels auront un accès illimité à o3-mini et o3-mini-high.

Rapide, puissante et optimisée pour le raisonnement STEM

Tout comme son prédécesseur OpenAI o1, OpenAI o3-mini a été optimisé pour le raisonnement STEM. o3-mini, avec un effort de raisonnement moyen, égale les performances de o1 en mathématiques, codage et sciences, tout en fournissant des réponses plus rapides. Les évaluations des testeurs experts ont montré que o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes, que l'OpenAI o1-mini.

Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures sur des questions difficiles du monde réel.

Avec un effort de raisonnement moyen, o3-mini égale les performances de o1 sur certaines des évaluations de raisonnement et d'intelligence les plus difficiles, y compris AIME et GPQA.

Concours de mathématiques (AIME 2024)

Avec un faible effort de raisonnement, l'OpenAI o3-mini atteint des performances comparables à celles de l'OpenAI o1-mini, tandis qu'avec un effort moyen, l'o3-mini atteint des performances comparables à celles de l'o1. En revanche, avec un effort de raisonnement élevé, o3-mini surpasse à la fois OpenAI o1-mini et OpenAI o1, où les régions grisées montrent la performance du vote majoritaire (consensus) avec 64 échantillons.

Questions scientifiques de niveau doctoral (GPQA Diamond)

Sur les questions de biologie, de chimie et de physique de niveau doctoral, avec un faible effort de raisonnement, OpenAI o3-mini atteint des performances supérieures à OpenAI o1-mini. Avec un effort élevé, o3-mini atteint des performances comparables à celles de o1.

Mathématiques pour la recherche (FrontierMath)

L'OpenAI o3-mini avec un raisonnement poussé obtient de meilleurs résultats que son prédécesseur sur FrontierMath. Sur FrontierMath, lorsqu'il est invité à utiliser un outil Python, o3-mini avec un effort de raisonnement élevé résout plus de 32 % des problèmes du premier coup, dont plus de 28 % des problèmes difficiles (T3). Ces chiffres sont provisoires, et le graphique ci-dessous montre les performances sans outils ni calculatrice.

Compétition de code (Codeforces)

Sur la programmation compétitive de Codeforces, OpenAI o3-mini atteint des scores Elo progressivement plus élevés avec un effort de raisonnement accru, surpassant tous o1-mini. Avec un effort de raisonnement moyen, elle égale les performances de o1.

Génie logiciel (SWE-bench vérifié)

o3-mini est le modèle publié le plus performant d'OpenAI sur SWEbench-verified. Pour des données supplémentaires sur les résultats de SWE-bench Verified avec un effort de raisonnement élevé, y compris avec l'échafaudage Agentless open-source (39?%) et un échafaudage d'outils internes (61?%), voir la fiche du système o3-mini.

Codage LiveBench

OpenAI o3-mini surpasse o1-high même à un effort de raisonnement moyen, soulignant son efficacité dans les tâches de codage. À un effort de raisonnement élevé, o3-mini accroît encore son avance, obtenant des performances nettement plus élevées sur les mesures clés.

Connaissances générales

o3-mini surpasse o1-mini dans les évaluations de connaissances dans les domaines de connaissances générales.

Évaluation des préférences humaines

Les évaluations réalisées par des testeurs experts externes montrent également que l'OpenAI o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes que l'OpenAI o1-mini, en particulier dans le domaine des STEM. Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures dans les questions difficiles du monde réel.

Vitesse et performance du modèle

Avec une intelligence comparable à celle de l'OpenAI o1, l'OpenAI o3-mini offre des performances plus rapides et une efficacité accrue. Au-delà des évaluations STEM mises en évidence ci-dessus, o3-mini démontre des résultats supérieurs dans des évaluations mathématiques et factuelles supplémentaires avec un effort de raisonnement moyen. Dans les tests A/B, o3-mini a fourni des réponses 24?% plus rapidement que o1-mini, avec un temps de réponse moyen de 7,7 secondes contre 10,16 secondes.

Comparaison de la latence entre o1-mini et o3-mini

OpenAI o3-mini a un temps moyen de 2500 ms plus rapide que o1-mini pour obtenir le premier jeton.

Sécurité

L'une des techniques clés utilisées par OpenAI pour apprendre à o3-mini à réagir en toute sécurité est l'alignement délibératif, où le modèle est entraîné à raisonner sur des spécifications de sécurité écrites par l'homme avant de répondre aux invites de l'utilisateur. Comme pour o1, il ressort que o3-mini surpasse de manière significative GPT-4o dans les évaluations de sécurité et de jailbreak les plus difficiles. Avant le déploiement, OpenAI a soigneusement évalué les risques de sécurité de o3-mini en utilisant la même approche de préparation, de red-teaming externe et d'évaluations de sécurité que o1.

Les détails des évaluations ci-dessous, ainsi qu'une explication complète des risques potentiels et de l'efficacité des mesures d'atténuation d'OpenAI, sont disponibles dans la fiche du système o3-mini.

Évaluations des contenus interdits

Évaluations Jailbreak

Prochaines étapes

La sortie d'OpenAI o3-mini marque une nouvelle étape dans la mission d'OpenAI qui consiste à repousser les limites de l'intelligence rentable. En optimisant le raisonnement pour les domaines STEM tout en maintenant les coûts bas, OpenAI a rendu l'IA de haute qualité encore plus accessible.

Le modèle o3-mini s'inscrit dans la continuité de l'action d'OpenAI visant à réduire le coût de l'intelligence (réduction du prix par jeton de 95 % depuis le lancement de GPT-4), tout en maintenant des capacités de raisonnement de premier plan. Dans un contexte d'adoption croissante de l'IA, OpenAI a réaffirmé son engagement à se positionner à l'avant-garde de la technologie en concevant des modèles qui optimisent l'intelligence, l'efficacité et la sécurité à grande échelle.

Alors que les modèles d'IA comme o3-mini continuent de repousser les limites de l'automatisation, l'essor des outils de codage pilotés par l'IA a suscité un débat continu sur l'avenir du développement logiciel, de sorte qu'il est difficile à l'heure actuelle de déterminer qui a raison.

En effet, selon le PDG de Nvidia, Jensen Huang, l'apprentissage de la programmation sera inutile à l'avenir car l'IA permettra à n'importe qui d'écrire du code en utilisant le langage naturel. D'autre part, des chercheurs de l'université de Princeton suggèrent que l'IA générative ne remplacera pas les développeurs de sitôt, car le développement de logiciels va bien au-delà des tâches de complétion de code. La question de savoir si l'IA va finir par rendre les programmeurs humains obsolètes ou si elle va plutôt redéfinir leurs rôles reste ainsi à l'ordre du jour.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du modèle d'IA o3-mini d'OpenAI ? Le trouvez-vous utile et intéressant ?

Voir aussi :

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre

OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne, les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

Vous avez lu gratuitement 2 253 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT

O3-mini est qualifié de « monstre de codage ultra-rapide »

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT O3-mini est qualifié de « monstre de codage ultra-rapide »

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT

O3-mini est qualifié de « monstre de codage ultra-rapide »