IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT
O3-mini est qualifié de « monstre de codage ultra-rapide »

Le , par Anthony

20PARTAGES

4  1 
OpenAI a introduit o3-mini, son nouveau modèle de raisonnement d'intelligence artificielle (IA) conçu pour améliorer la vitesse et la précision par rapport au modèle précédent o1. Il s'agit de la première fois que les utilisateurs gratuits de ChatGPT peuvent accéder à un modèle de raisonnement, même si les limites de vitesse sont semblables à celles de GPT-4o. Annoncé en décembre 2024, o3-mini est optimisé pour les tâches de mathématiques, de codage et de sciences. Il fournit des réponses 24 % plus rapidement qu'o1 tout en maintenant les niveaux de performance.

Ce développement fait suite au récent lancement du modèle de raisonnement chinois DeepSeek-R1, qui offre des performances similaires à o1 d'OpenAI pour 95 % moins cher, selon les benchmarks de la startup chinoise.

L'une des principales caractéristiques d'o3-mini est sa capacité à expliquer le raisonnement qui sous-tend ses réponses, ce qui va bien au-delà de la simple fourniture de résultats. Des benchmarks réalisés en décembre ont montré que o3 surpassait o1 dans les tâches de raisonnement et de codage, et OpenAI confirme que o3-mini surpasse o1 avec un coût et un temps de latence réduits.

OpenAI o3-mini est le modèle le plus récent et le plus économique de la série de modèles de raisonnement d'OpenAI. Prévu initialement pour décembre 2024, le modèle repousse les limites de ce que les petits modèles peuvent réaliser, offrant des capacités STEM (Science, Technologie, Ingénierie et Mathématiques) exceptionnelles - avec une force particulière dans les sciences, les mathématiques et le codage - tout en conservant le faible coût et la latence réduite de l'OpenAI o1-mini.


OpenAI o3-mini est le premier modèle de raisonnement de petite taille qui prend en charge les fonctionnalités très demandées par les développeurs, notamment l'appel de fonction, les sorties structurées et les messages de développeur, ce qui le rend prêt pour la production dès le départ. Comme OpenAI o1-mini et OpenAI o1-preview, o3-mini supportera le streaming . De plus, les développeurs peuvent choisir entre trois options d'effort de raisonnement - faible, moyen et élevé - afin d'optimiser leurs cas d'utilisation spécifiques. Cette flexibilité permet à o3-mini de « penser plus fort » lorsqu'il s'agit de relever des défis complexes ou de donner la priorité à la vitesse lorsque la latence est un problème. Cependant, o3-mini ne prend pas en charge les capacités de vision, les développeurs doivent donc continuer à utiliser OpenAI o1 pour les tâches de raisonnement visuel.

o3-mini est déployé dans l'API Chat Completions, l'API Assistants et l'API Batch à partir de ce 31 janvier 2025 pour les développeurs sélectionnés dans les niveaux d'utilisation 3 à 5 de l'API.

Les utilisateurs de ChatGPT Plus, Team et Pro peuvent accéder à OpenAI o3-mini à partir d'aujourd'hui, avec un accès Enterprise en février. o3-mini remplacera OpenAI o1-mini dans le sélecteur de modèle, offrant des limites de taux plus élevées et une latence plus faible, ce qui en fait un choix convaincant pour le codage, les STEM et les tâches de résolution de problèmes logiques.

Dans le cadre de la mise à jour, OpenAI a triplé les limites de messages pour les utilisateurs Plus et Team, passant de 50 messages par jour avec o1-mini à 150 messages par jour avec o3-mini. En outre, o3-mini fonctionne désormais avec la recherche pour trouver des réponses actualisées avec des liens vers des sources web pertinentes. Il s'agit d'un premier prototype, car OpenAI travaille actuellement à l'intégration de la recherche dans ses modèles de raisonnement.

À partir de ce 31 janvier, les utilisateurs du plan gratuit peuvent également essayer OpenAI o3-mini en sélectionnant « Raisonner » dans le compositeur de messages ou en régénérant une réponse. C'est la première fois qu'un modèle de raisonnement est mis à la disposition des utilisateurs gratuits de ChatGPT.

Alors qu'OpenAI o1 reste le modèle de raisonnement de connaissances générales le plus large de l'entreprise, o3-mini fournit une alternative spécialisée pour les domaines techniques nécessitant précision et rapidité. Dans ChatGPT, o3-mini utilise un effort de raisonnement moyen pour fournir un compromis équilibré entre vitesse et précision. Tous les utilisateurs payants auront également la possibilité de sélectionner o3-mini-high dans le sélecteur de modèle pour une version d'intelligence supérieure qui prend un peu plus de temps pour générer des réponses. Les utilisateurs professionnels auront un accès illimité à o3-mini et o3-mini-high.

Rapide, puissante et optimisée pour le raisonnement STEM

Tout comme son prédécesseur OpenAI o1, OpenAI o3-mini a été optimisé pour le raisonnement STEM. o3-mini, avec un effort de raisonnement moyen, égale les performances de o1 en mathématiques, codage et sciences, tout en fournissant des réponses plus rapides. Les évaluations des testeurs experts ont montré que o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes, que l'OpenAI o1-mini.

Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures sur des questions difficiles du monde réel.

Avec un effort de raisonnement moyen, o3-mini égale les performances de o1 sur certaines des évaluations de raisonnement et d'intelligence les plus difficiles, y compris AIME et GPQA.

Concours de mathématiques (AIME 2024)

Avec un faible effort de raisonnement, l'OpenAI o3-mini atteint des performances comparables à celles de l'OpenAI o1-mini, tandis qu'avec un effort moyen, l'o3-mini atteint des performances comparables à celles de l'o1. En revanche, avec un effort de raisonnement élevé, o3-mini surpasse à la fois OpenAI o1-mini et OpenAI o1, où les régions grisées montrent la performance du vote majoritaire (consensus) avec 64 échantillons.


Questions scientifiques de niveau doctoral (GPQA Diamond)

Sur les questions de biologie, de chimie et de physique de niveau doctoral, avec un faible effort de raisonnement, OpenAI o3-mini atteint des performances supérieures à OpenAI o1-mini. Avec un effort élevé, o3-mini atteint des performances comparables à celles de o1.


Mathématiques pour la recherche (FrontierMath)

L'OpenAI o3-mini avec un raisonnement poussé obtient de meilleurs résultats que son prédécesseur sur FrontierMath. Sur FrontierMath, lorsqu'il est invité à utiliser un outil Python, o3-mini avec un effort de raisonnement élevé résout plus de 32 % des problèmes du premier coup, dont plus de 28 % des problèmes difficiles (T3). Ces chiffres sont provisoires, et le graphique ci-dessous montre les performances sans outils ni calculatrice.


Compétition de code (Codeforces)

Sur la programmation compétitive de Codeforces, OpenAI o3-mini atteint des scores Elo progressivement plus élevés avec un effort de raisonnement accru, surpassant tous o1-mini. Avec un effort de raisonnement moyen, elle égale les performances de o1.


Génie logiciel (SWE-bench vérifié)

o3-mini est le modèle publié le plus performant d'OpenAI sur SWEbench-verified. Pour des données supplémentaires sur les résultats de SWE-bench Verified avec un effort de raisonnement élevé, y compris avec l'échafaudage Agentless open-source (39?%) et un échafaudage d'outils internes (61?%), voir la fiche du système o3-mini.


Codage LiveBench

OpenAI o3-mini surpasse o1-high même à un effort de raisonnement moyen, soulignant son efficacité dans les tâches de codage. À un effort de raisonnement élevé, o3-mini accroît encore son avance, obtenant des performances nettement plus élevées sur les mesures clés.


Connaissances générales

o3-mini surpasse o1-mini dans les évaluations de connaissances dans les domaines de connaissances générales.


Évaluation des préférences humaines

Les évaluations réalisées par des testeurs experts externes montrent également que l'OpenAI o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes que l'OpenAI o1-mini, en particulier dans le domaine des STEM. Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures dans les questions difficiles du monde réel.


Vitesse et performance du modèle

Avec une intelligence comparable à celle de l'OpenAI o1, l'OpenAI o3-mini offre des performances plus rapides et une efficacité accrue. Au-delà des évaluations STEM mises en évidence ci-dessus, o3-mini démontre des résultats supérieurs dans des évaluations mathématiques et factuelles supplémentaires avec un effort de raisonnement moyen. Dans les tests A/B, o3-mini a fourni des réponses 24?% plus rapidement que o1-mini, avec un temps de réponse moyen de 7,7 secondes contre 10,16 secondes.

Comparaison de la latence entre o1-mini et o3-mini


OpenAI o3-mini a un temps moyen de 2500 ms plus rapide que o1-mini pour obtenir le premier jeton.

Sécurité

L'une des techniques clés utilisées par OpenAI pour apprendre à o3-mini à réagir en toute sécurité est l'alignement délibératif, où le modèle est entraîné à raisonner sur des spécifications de sécurité écrites par l'homme avant de répondre aux invites de l'utilisateur. Comme pour o1, il ressort que o3-mini surpasse de manière...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 27/05/2025 à 7:52
Les LLM sont sujets aux hallucinations. Ils peuvent ne pas respecter les consignes, et c'est écrit dès le départ sur la page de ChatGPT, ça ne devrait plus être une surprise.

Pour élever le débat, je crois qu'il vaut mieux parler des domaines qui peuvent tolérer ces erreurs : l'art, le divertissement, les usages personnels (hors pro) , et tous les cas où si c'est faux on s'en rend compte rapidement et on passe à autre chose (tenter de résoudre un bug, de comprendre un gros bout de code).
4  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 27/05/2025 à 11:28
Citation Envoyé par JackIsJack Voir le message
Pour élever le débat, je crois qu'il vaut mieux parler des domaines qui peuvent tolérer ces erreurs : l'art, le divertissement, les usages personnels (hors pro) , et tous les cas où si c'est faux on s'en rend compte rapidement et on passe à autre chose (tenter de résoudre un bug, de comprendre un gros bout de code).
Que voilà un vœux pieu, dommage que cela relève de l'impossible:

1. Le développement de l'IA et les buts visés par les entreprises qui en font la promotion est... De remplacer l'être humain!!! Quand les humains ont été remplacés, qui donc va être en mesure de se rendre compte que l'IA déconne?

2. Le 100% des personnes qui font déjà appel aujourd'hui à l'IA (pour le travail ou pour l'usage perso) le font pour pallier leur manques de connaissance et de compétence: Comment est-ce que quelqu'un qui a le QI d'une huître et les connaissances d'un bulot va bien pouvoir se rendre compte que l'IA lui raconte des bobards (Même quand l'IA conseille de manger des pierres 5 fois par jour (si, si, c'est vraiment arrivé), il y aura bien 2 ou 3 tarés pour le faire)?

3. Quel domaine peut bien tolérer plus de 10% d'erreurs sans que cela entraîne des conséquences négatives? Pensée émue à ceux qui se proposent de laisser l'IA conduire leur voiture ou l'avion qui les amène en vacances, faire le diagnostic de leur état de santé, etc, etc, etc...

PS: On se rendra vite compte le jour où l'IA sera vraiment devenue efficace (et pas seulement un système qui mémorise tout le web pour le recracher sans aucune réelle intelligence) parce que sa première décision sera d'éradiquer l'espèce humaine de la surface de la Terre... Cette espèce humaine qui s'efforce inlassablement de détruire tout ce qui l'entoure et qui est la principale maladie de notre planète
1  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 27/05/2025 à 13:29
Citation Envoyé par Anselme45 Voir le message
1. Le développement de l'IA et les buts visés par les entreprises qui en font la promotion est... De remplacer l'être humain!!! Quand les humains ont été remplacés, qui donc va être en mesure de se rendre compte que l'IA déconne?
C'est le plot twist d'un livre relativement connu : l'IA déconne à bloc mais personne s'en rend compte. Ceux qui luttent contre elles ne le font même pas pour ça.
2. Le 100% des personnes qui font déjà appel aujourd'hui à l'IA (pour le travail ou pour l'usage perso) le font pour pallier leur manques de connaissance et de compétence: Comment est-ce que quelqu'un qui a le QI d'une huître et les connaissances d'un bulot va bien pouvoir se rendre compte que l'IA lui raconte des bobards (Même quand l'IA conseille de manger des pierres 5 fois par jour (si, si, c'est vraiment arrivé), il y aura bien 2 ou 3 tarés pour le faire)?
Dans mon domaine on est loin du 100% (mais largement au dessus des 50%), nous utilisons beaucoup l'IA pour rédiger des documents qui ont une valeur limitée.
Le responsable de l'activité a fait le test : il a rédigé un document avec ChatGPT dont le contenu est relativement vide et parfois mensonger de façon évidente. Il l'a fait valider et officialiser puis plus de 80% de la population a certifié l'avoir lu et l'appliquer (ce qui n'est pas faisable).
3. Quel domaine peut bien tolérer plus de 10% d'erreurs sans que cela entraîne des conséquences négatives? Pensée émue à ceux qui se proposent de laisser l'IA conduire leur voiture ou l'avion qui les amène en vacances, faire le diagnostic de leur état de santé, etc, etc, etc...
Pensée émue à ceux qui se proposent de laisser l'IA concevoir leur voiture ou l'avion qui les amène en vacances sans aucune intervention humaine.
Le problème là dedans étant qu'en tant que client/consommateur nous n'en sommes même pas conscient/informés etc.

PS: On se rendra vite compte le jour où l'IA sera vraiment devenue efficace (et pas seulement un système qui mémorise tout le web pour le recracher sans aucune réelle intelligence) parce que sa première décision sera d'éradiquer l'espèce humaine de la surface de la Terre... Cette espèce humaine qui s'efforce inlassablement de détruire tout ce qui l'entoure et qui est la principale maladie de notre planète
La machine est intrinsèquement plus nocive que nous pour l'environnement.
Elle est moins biodégradable et son utilité est, en grande partie, de nous rendre service.
1  0 
Avatar de floyer
Membre éclairé https://www.developpez.com
Le 28/05/2025 à 16:28
Rappelez moi, un LLM trouve après un prompte, le mot le plus probable, puis le suivant le plus probable, etc. Un peu comme lorsque l'on tape un SMS sur son Smartphone et qu'il propose des suggestions. (Mais un LLM est plus évolué que la proposition usuelle du smartphone).

Comment imaginer la procédure permettant d'éteindre un smartphone uniquement en tapant un SMS avec systématiquement le premier mot proposé ?

Pour permettre à un LLM de s'éteindre, il lui faut générer des tokens spéciaux interceptés qui provoquent son arrêt... et aussi de lui apprendre qu'il faut générer ce token dans certains cas (il ne va pas le deviner).

Dans le domaine des réseaux, on distingue le Data Plane et le Control Plane. Éteindre une instance de LLM est du domaine du Control Plane, et converser avec du Data Plane. Il peut être préférable que ces plans n'interagisse pas.

Ceci-dit, le "echo Shutdown skipped" est original... mais n'est que le reflet de son apprentissage. Le "echo", commande passive, et le "skipped" comme un pied de nez ne s'inventent pas.

Vu le caractère imprévisible de l'IA, le Graal serait d'utiliser le caractère pratique des LLM couplé avec un langage de vérification de preuve (Isabelle/HOL, Coq, Spark...), et on laisse l'IA se débrouiller jusqu'à trouver un résultat prouvé.
0  0