GPT-5.1 a été lancé il y a un mois, mais il a rapidement été éclipsé par Gemini 3.0, qui a globalement surpassé ses performances de référence. Par la suite, Anthropic a lancé Claude Opus 4.5, qui l'a également surpassé dans l'ensemble. Dans l'espoir de reconquérir sa couronne après une « alerte rouge » interne, OpenAI lance GPT-5.2. L'entreprise s'est vantée que ce modèle est, à certains égards, le nouveau leader du marché : « GPT-5.2 Thinking est le meilleur modèle à ce jour pour une utilisation professionnelle dans le monde réel ». OpenAI revendique un bond dans le domaine du raisonnement abstrait et du « travail de connaissance professionnelle ». « Nous avons conçu la version 5.2 afin d'offrir encore plus de valeur économique aux utilisateurs », a déclaré Fidji Simo, directeur produit chez OpenAI, lors d'une récente conférence de presse. « Cette nouvelle monture est plus performante pour créer des feuilles de calcul, élaborer des présentations, écrire du code, percevoir des images, comprendre des contextes plus longs, utiliser des outils, puis relier des projets complexes en plusieurs étapes ».
Le nouveau GPT-5.2 se décline en trois versions : Instant, Thinking et Pro. GPT-5.2 Instant gère les tâches plus rapides comme l'écriture et la traduction ; GPT-5.2 Thinking produit des textes simulant un raisonnement afin de s'attaquer à des tâches plus complexes comme le codage et les mathématiques ; et GPT-5.2 Pro produit encore plus de textes simulant un raisonnement dans le but d'offrir la plus grande précision possible pour les problèmes difficiles.
Avec une fenêtre de contexte plus grande et des promesses de productivité décuplée, OpenAI espère séduire les professionnels. GPT-5.2 dispose d'une fenêtre de contexte de 400 000 tokens, ce qui lui permet de traiter des centaines de documents à la fois, avec une base de connaissances fixée au 31 août 2025.
Le PDG d'OpenAI, Sam Altman, avait déclaré un « code rouge » interne face à la pression concurrentielle, accélérant ainsi le développement de GPT-5.2. L'image ci-dessus est une comparaison des trois modèles (Gemini 3.0, GPT-5.2 et Opus 4.5) selon les critères les plus pertinents pour les applications de R&D, avec la réserve que ces chiffres sont ceux communiqués par les fournisseurs et doivent encore faire l'objet d'une vérification indépendante.
Domaines dans lesquels GPT-5.2 d'OpenAI revendique le leadership
L'écart le plus frappant concerne les performances de GPT-5.2 sur ARC-AGI-2, un benchmark conçu pour tester la capacité de raisonnement authentique tout en résistant à la mémorisation. Avec 52,9 % (Thinking) et 54,2 % (Pro), le nouveau modèle d'OpenAI surpasse largement Claude Opus 4.5 (37,6 %) et Gemini 3 Deep Think (45,1 %). Pour rappel, le benchmark ARC-AGI est devenu une référence en matière de capacité de raisonnement abstrait.
Cette capacité est importante pour la résolution de problèmes nouveaux dans des contextes de recherche. GPT-5.2 obtient un score parfait de 100 % sur AIME 2025 sans outils, égalant ainsi le score obtenu par Gemini 3 Pro uniquement avec l'exécution de code activée. Sur GPQA Diamond, un benchmark scientifique de niveau universitaire, GPT-5.2 Pro obtient un score de 93,2 %, pratiquement à égalité avec les 93,8 % de Gemini 3 Deep Think.
(GPT-5.2 a obtenu un score de 92,4 % sur GPQA Diamond, contre 91,9 % pour Gemini 3 Pro.) GPT-5.2 Thinking génère également des réponses avec 38 % de confabulations en moins que GPT-5.1, selon Max Schwarzer, responsable de la post-formation chez OpenAI. Selon Max Schwarzer, « GPT-5.2 hallucine nettement moins » que son prédécesseur. Cependant, il est important de toujours les résultats des benchmarks avec des pincettes.
En effet, il est facile de les présenter d'une manière positive pour une entreprise, surtout lorsque la science permettant de mesurer objectivement les performances de l'IA n'a pas encore tout à fait rattrapé les arguments de vente des entreprises concernant les capacités de l'IA semblables à celles des humains. Les résultats de tests indépendants réalisés par des chercheurs extérieurs à OpenAI ne seront pas disponibles avant un certain temps.
OpenAI promeut également un nouveau benchmark appelé GDPval, qui mesure les performances sur des « tâches de travail intellectuel bien spécifiées » dans 44 professions. La société affirme que GPT-5.2 Thinking bat ou égale les professionnels du secteur dans 70,9 % des cas, à une vitesse 11 fois supérieure et pour moins de 1 % du coût. Il s'agit néanmoins d'un benchmark propre à OpenAI, et celui-ci n'a pas été validé de manière indépendante.
Programmation
GPT‑5.2 Thinking établit un nouveau record de 55,6 % sur SWE-Bench Pro, un benchmark en génie logiciel en conditions réelles, contre 43,3 % pour Gemini 3 Pro et 52,0 % pour Claude Opus 4.5. Contrairement à SWE-Bench Verified, qui ne teste que Python, SWE-Bench Pro évalue quatre langages et se veut plus résistant au risque de contamination des données d’entraînement, plus exigeant, plus diversifié et plus représentatif des usages industriels.
Claude Opus 4.5 conserve la première place du classement SWE-Bench Verified avec un score de 80,9 %, même si les premiers résultats peuvent être instables. Le score de 80,0 % obtenu par GPT-5.2 comble un écart qui était auparavant plus important. Claude Opus 4.5 est aussi en tête du Terminal-bench 2.0 (59,3 %), qui teste les compétences en codage en ligne de commande, et revendique une résistance inégalée aux attaques par injection de prompt.
Gemini 3 Deep Think conserve le score le plus élevé publié sur Humanity's Last Exam avec 41,0 % sans outils, un benchmark conçu pour mettre au défi les systèmes d'IA de pointe. Le modèle a aussi obtenu la médaille d'or aux Olympiades internationales de mathématiques et à la finale mondiale du Concours international de programmation universitaire, ce qui suggère une grande force en matière de raisonnement mathématique de niveau compétitif.
La concurrence est au coude à coude avec sur plusieurs benchmarks
Le lancement de GPT-5.2 fait suite à un mois difficile pour OpenAI. Début décembre 2025, le PDG Sam Altman a publié une directive interne « code rouge » après que le modèle Gemini 3.0 de Google a dépassé le modèle d'OpenAI sur plusieurs benchmarks et gagné des parts de marché. La note appelait à retarder d'autres initiatives, notamment les plans publicitaires pour ChatGPT, pour se concentrer sur l'amélioration de l'expérience de base du chatbot.
Les enjeux pour OpenAI sont considérables. La société s'est engagée à investir 1 400 milliards de dollars dans le développement d'infrastructures d'IA au cours des prochaines années, un pari qu'elle a pris alors qu'elle disposait d'une avance plus évidente parmi les entreprises d'IA. L'application Gemini compte désormais plus de 650 millions d'utilisateurs actifs par mois, tandis qu'OpenAI annonce 800 millions d'utilisateurs actifs par semaine pour ChatGPT.
Afin de rester dans la course (ou de devancer la concurrence), les lancements de modèles se succèdent à un rythme soutenu : GPT-5.2 représente le troisième lancement majeur d'OpenAI depuis le mois d'août 2025. GPT-5 a été lancé ce mois-là avec un nouveau système de routage qui permet de basculer entre les modes de réponse instantanée et de raisonnement simulé, bien que les utilisateurs se soient plaints de réponses jugées froides et cliniques.
La mise à jour GPT-5.1 de novembre 2025 a ajouté huit options de « personnalité » prédéfinies et s'est concentrée sur l'amélioration de la conversationnalité du système. Selon OpenAI, GPT-5.2 est un bond en avant monumental pour le raisonnement et le codage autonomes et approfondis.
Disponibilité de GPT-5.2
GPT-5.2 est déjà déployé auprès des abonnés payants de ChatGPT, avec un accès API disponible pour les développeurs. Le prix de l'API est de 1,75 dollars par million de tokens d'entrée pour le modèle standard, soit une augmentation de 40 % par rapport à GPT-5.1. OpenAI indique que l'ancienne version GPT-5.1 restera disponible dans ChatGPT pour les utilisateurs payants pendant trois mois dans un menu déroulant dédié aux anciens modèles.
Les premières réactions au dernier modèle phare d'OpenAI
Les réactions les plus élogieuses à l'égard portent sur sa capacité à traiter des « problèmes complexes » qui nécessitent un temps de réflexion prolongé. Matt Shumer, PDG de HyperWriteAI, n'a pas mâché ses mots, qualifiant GPT-5.2 Pro de « meilleur modèle au monde ». Il a souligné la ténacité du modèle, notant que « GPT-5.2 réfléchit pendant plus d'une heure à des problèmes difficiles. Et il accomplit des tâches qu'aucun autre modèle ne peut réaliser ».
I've been testing GPT-5.2 for a while now.
— Pietro Schirano (@skirano) December 11, 2025
It's a serious leap forward in complex reasoning, math, coding, and simulations.
It built a full 3D graphics engine in a single file. Interactive controls. 4K export.
One shot.
The pace of progress is unreal. pic.twitter.com/yTaEA9Dbyy
Allie K. Miller, entrepreneure dans le domaine de l'IA et ancienne cadre chez AWS, a décrit GPT-5.2 comme un pas vers « l'IA en tant qu'analyste sérieux » plutôt que comme un « compagnon amical ». « La réflexion et la résolution de problèmes semblent nettement plus solides. Il donne des explications plus approfondies que celles auxquelles je suis habituée. À un moment donné, il a littéralement écrit du code pour améliorer sa propre OCR au milieu d'une tâche ».
Aaron Levie, PDG de Box, a révélé sur X (ex-Twitter) que son entreprise a testé GPT-5.2 en accès anticipé. Il a indiqué que « le modèle obtient 7 points de plus que GPT-5.1 » lors de leurs tests de raisonnement étendus, qui se rapprochent du travail intellectuel réel dans les services financiers et les sciences de la vie.
Pietro Schirano, PDG de Magicpath.ai, a partagé une vidéo du modèle construisant un moteur graphique 3D complet dans un seul fichier avec des commandes interactives. « C'est un bond en avant en matière de raisonnement complexe, de mathématiques, de codage et de simulations. Le rythme...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.