
OpenAI a lancé une version plus puissante de son modèle d'IA qui « raisonne » o1, o1-pro, dans son API pour développeurs. Selon OpenAI, o1-pro utilise plus de puissance de calcul que o1 pour fournir « des réponses toujours meilleures ». Actuellement, il n'est disponible que pour certains développeurs (ceux qui ont dépensé au moins 5 dollars pour les services API d'OpenAI) et son prix est élevé... très élevé : OpenAI facture 150 dollars par million de jetons (~750 000 mots) introduits dans le modèle et 600 dollars par million de jetons générés par le modèle. C'est deux fois le prix du GPT-4.5 d'OpenAI pour l'entrée et 10 fois le prix de l'o1 normal.
OpenAI fait le pari que les performances améliorées d'o1-pro convaincront les développeurs de payer ces sommes astronomiques.
« O1-pro dans l'API est une version d'o1 qui utilise plus de calcul pour réfléchir davantage et fournir des réponses encore meilleures aux problèmes les plus difficiles », a déclaré un porte-parole d'OpenAI. « Après avoir reçu de nombreuses demandes de la part de notre communauté de développeurs, nous sommes ravis de l'intégrer à l'API afin d'offrir des réponses encore plus fiables. »
Pourtant, les premières impressions d'o1-pro, qui est disponible sur la plateforme de chatbot IA d'OpenAI, ChatGPT, pour les abonnés ChatGPT Pro depuis décembre, n'ont pas été incroyablement positives. Les utilisateurs ont constaté que le modèle avait du mal avec les puzzles Sudoku et qu'il se laissait surprendre par de simples blagues sur les illusions d'optique.o1-pro now available in API @benhylak @literallyhimmmm @shl @joshRnold @samgoodwin89 @byamadaro1013 @adonis_singh @alecvxyz @StonkyOli @gabrielchua_ @UltraRareAF @yukimasakiyu @theemao @curious_vii
— OpenAI Developers (@OpenAIDevs) March 19, 2025
It uses more compute than o1 to provide consistently better responses. Available… pic.twitter.com/Iub6tp1NTi
« J'ai demandé à ChatGPT o1 Pro Mode de créer un SVG d'une licorne (C'est le modèle auquel vous avez accès pour 200$ par mois) »o1 and o1-pro both failed here, probably still because of the vision limitations (the same with Sudoku puzzles)https://t.co/mAVK7WxBrq pic.twitter.com/O9boSv7ZGt
— Tibor Blaho (@btibor91) December 5, 2024
De nombreuses personnes sur X ne semblaient pas convaincues que les réponses du mode o1 pro étaient de niveau 200 $ : « OpenAI a-t-elle donné des exemples concrets d'invites qui échouent dans o1 normal mais réussissent dans o1-pro ? », a demandé l'informaticien britannique Simon Willison. « Je veux voir un seul exemple concret qui montre son avantage ».I asked ChatGPT o1 Pro Mode to create an SVG of a unicorn.
— Rammy (@rammydev) December 5, 2024
(This is the model you get access to for $200 monthly) pic.twitter.com/h9HwY3aYwU
En outre, certains tests internes d'OpenAI réalisés à la fin de l'année dernière ont montré que o1-pro n'était que légèrement plus performant que o1 standard pour les problèmes de codage et de mathématiques. Il a toutefois répondu à ces problèmes de manière plus fiable, selon ces tests.o1-pro question: have OpenAI shared any concrete examples of prompts that fail in regular o1 but succeed in o1-pro?
— Simon Willison (@simonw) December 6, 2024
If I'm going to 10x my subscription fee I want to see what I'm getting!
Les tests internes d'OpenAI montrent que le mode pro d'o1 est à peine plus performant que le mode standard d'o1 pour les problèmes de codage et de mathématiques
OpenAI a effectué une évaluation « plus stricte » sur les mêmes benchmarks afin de démontrer la cohérence de o1 pro mode : le modèle n'était considéré comme ayant résolu une question que s'il obtenait la bonne réponse quatre fois sur quatre. Mais même dans ces tests, les améliorations n'étaient pas spectaculaires
S'il fallait illustrer l'utilisation d'o1-pro et son impact potentiel en termes de dépense, penchons nous sur le billet de Simon Willison qui s'est servi du LLM pour dessiner un pélican sur une bicyclette dont voici un extrait :

De façon brossée, la distillation des modèles, ou knowledge distillation, est une méthode permettant de transférer les connaissances d’un modèle volumineux (appelé modèle professeur) vers un modèle plus petit (modèle étudiant). L’objectif est de capturer l’essence des performances du modèle initial tout en diminuant la complexité computationnelle et les coûts associés. Bien sûr, en pratique, ce n'est pas aussi simple mais l'idée ici est d'expliquer le principe.
Cette approche repose sur plusieurs principes :
- Transfert de connaissances implicite : Le modèle professeur entraîne le modèle étudiant en lui fournissant non seulement les bonnes réponses, mais aussi des indications sur la manière dont il prend ses décisions.
- Réduction des besoins en calcul : Un modèle plus petit consomme moins d’énergie et nécessite moins de puissance de calcul, le rendant plus accessible.
- Maintien des performances : Grâce à des techniques avancées de distillation, les modèles étudiants peuvent atteindre des résultats comparables à ceux des modèles professeurs avec une fraction de leur taille initiale.
Depuis longtemps, les dépenses massives des géants de la technologie en matière d...