OpenAI lance GPT-5.3-Codex-Spark, optimisé par la puce Wafer Scale Engine 3 de Cerebras, pour un codage en temps réel ultra-rapide, 15 fois plus rapide que son prédécesseur

Le 13 février 2026 à 14:39, par Jade Emy

183PARTAGES

OpenAI lance GPT-5.3-Codex-Spark, optimisé par la puce Wafer Scale Engine 3 de Cerebras, pour un codage en temps réel ultra-rapide, 15 fois plus rapide que son prédécesseur

OpenAI lance GPT-5.3-Codex-Spark pour un codage en temps réel ultra-rapide. Alimenté par la puce Wafer Scale Engine 3 de Cerebras, Spark permettrait une inférence plus rapide et constitue la première étape importante du partenariat pluriannuel entre OpenAI et Cerebras. Le modèle GPT-5.3-Codex original sert à des tâches plus longues et plus lourdes qui nécessitent un raisonnement et une exécution plus approfondis. En revanche, GPT-5.3-Codex-Spark se concentre sur des opérations rapides. OpenAI le décrit comme une version plus petite conçue spécifiquement pour réduire la latence pendant les processus d'inférence. Codex-Spark est lancé en tant qu'aperçu de recherche pour les utilisateurs de ChatGPT Pro dans les dernières versions de l'application Codex, de l'interface CLI et de l'extension VS Code.

Les outils de codage IA ont connu un essor fulgurant au cours de l'année dernière, poussant OpenAI a fourni plus d'efforts pour gagner des parts de marché sur ses concurrents tels qu'Anthropic et Cursor. Récemment, OpenAI a lancé un nouveau modèle de codage, GPT-5.3-Codex. OpenAI est une entreprise américaine d'intelligence artificielle (IA) qui s'est donné pour mission de développer et de promouvoir une intelligence artificielle générale « sûre et bénéfique à toute l'humanité ». L'entreprise est connue pour ses grands modèles de langage tels que GPT-4o, la série de modèles de génération d'images DALL-E et le modèle de génération de vidéos Sora.

Lors de l'annonce de GPT-5.3-Codex, la société a déclaré que ce nouveau modèle avait amélioré ses « capacités de raisonnement et de connaissances professionnelles » et qu'il fonctionnerait 25 % plus rapidement que son prédécesseur. OpenAI précise que le nouveau modèle GPT-5.3-Codex est son « premier modèle qui a contribué à sa propre création ». OpenAI affirme notamment : « L'équipe Codex a utilisé les premières versions pour déboguer sa propre formation, gérer son propre déploiement et diagnostiquer les résultats des tests et des évaluations. Notre équipe a été impressionnée par la capacité de Codex à accélérer son propre développement. »

Plus récemment, OpenAI lance GPT-5.3-Codex-Spark pour un codage en temps réel ultra-rapide. Ce modèle est la première étape importante de la production issue du partenariat de plus de 10 milliards de dollars entre OpenAI et Cerebras, annoncé en janvier 2026. Cerebras Systems Inc. est une société américaine spécialisée dans l'intelligence artificielle (IA) qui construit des systèmes informatiques pour des applications complexes d'apprentissage profond en IA. Sa technologie, le Cerebras Wafer Scale Engine (WSE), est un processeur intégré unique à l'échelle d'une plaquette qui comprend des capacités de calcul, de mémoire et d'interconnexion.

GPT-5.3-Codex-Spark optimisé par Cerebras

En septembre 2025, Nvidia et OpenAI ont annoncé en grande pompe un protocole d’accord selon lequel Nvidia investirait jusqu’à 100 milliards de dollars dans une infrastructure d’OpenAI pour soutenir l’entraînement et l’exploitation de ses modèles d'IA. Cet investissement devait également s’accompagner de la fourniture de systèmes GPU de très grande capacité destinés à OpenAI. Mais le projet bat désormais de l’aile. Aucune transaction n’a été finalisée et le PDG de Nvidia, Jensen Huang, a clarifié que le montant de 100 milliards de dollars n'était pas un engagement juridiquement contraignant.

De son côté, OpenAI rechercherait discrètement des alternatives aux puces Nvidia depuis l'année dernière. La nouvelle annonce d'OpenAI semble confimer cela. Ainsi, OpenAI a annoncé GPT-5.3-Codex-Spark, une version allégée de son outil de codage agentique Codex. Alimenté par la puce Wafer Scale Engine 3 de Cerebras, Spark permettrait une inférence plus rapide et constitue la première étape importante du partenariat pluriannuel entre OpenAI et Cerebras.

Le modèle GPT-5.3-Codex original sert à des tâches plus longues et plus lourdes qui nécessitent un raisonnement et une exécution plus approfondis. En revanche, GPT-5.3-Codex-Spark se concentre sur des opérations rapides. OpenAI le décrit comme une version plus petite conçue spécifiquement pour réduire la latence pendant les processus d'inférence. Ce nouvel outil intègre le matériel de Cerebras directement dans l'infrastructure physique d'OpenAI, ce qui représente une collaboration plus approfondie entre les deux sociétés.

OpenAI et Cerebras ont révélé leur partenariat le mois dernier à travers un accord pluriannuel évalué à plus de 10 milliards de dollars. À cette occasion, OpenAI a déclaré : « L'intégration de Cerebras dans notre gamme de solutions informatiques vise à rendre notre IA beaucoup plus réactive. » La société positionne désormais Spark comme la première réalisation de cette alliance, soulignant son rôle dans l'accélération des réponses de l'IA.

Le Wafer Scale Engine 3 de Cerebras alimente les capacités d'inférence de Spark. Cette mégapuce de troisième génération à l'échelle d'une plaquette contient 4 000 milliards de transistors, permettant un calcul haute performance adapté aux charges de travail de l'IA. OpenAI souligne l'adéquation de Spark pour la collaboration en temps réel et l'itération rapide. L'outil fonctionne comme un moteur de productivité quotidien, aidant les utilisateurs à réaliser rapidement des prototypes plutôt que des calculs prolongés gérés par le modèle de base GPT-5.3-Codex.

Spark fonctionne avec la latence la plus faible possible sur Codex. OpenAI explique son objectif dans une déclaration officielle : « Codex-Spark est la première étape vers un Codex qui fonctionne selon deux modes complémentaires : la collaboration en temps réel lorsque vous souhaitez une itération rapide, et les tâches de longue durée lorsque vous avez besoin d'un raisonnement et d'une exécution plus approfondis. » Les puces de Cerebras prennent en charge les flux de travail qui exigent une latence extrêmement faible.

Actuellement, Spark apparaît comme un aperçu de recherche réservé aux utilisateurs de ChatGPT Pro dans l'application Codex. Ce déploiement limité permet de procéder à des tests initiaux auprès des abonnés au plan Pro. Avant l'annonce, le PDG d'OpenAI, Sam Altman, avait laissé entendre la sortie sur X/Twitter. Il a publié : « Nous avons une nouveauté spéciale à lancer pour les utilisateurs de Codex au plan Pro plus tard dans la journée. » Altman a ajouté : « Cela me réjouit. »

Fondée il y a plus de dix ans, Cerebras s'est imposée dans le secteur de l'IA. Récemment, la société a levé 1 milliard de dollars de capitaux frais, atteignant une valorisation de 23 milliards de dollars. Cerebras a fait part de son intention de procéder à une introduction en bourse. Sean Lie, directeur technique et cofondateur de Cerebras, a commenté cette évolution : « Ce qui nous enthousiasme le plus à propos de GPT-5.3-Codex-Spark, c'est le partenariat avec OpenAI et la communauté des développeurs pour découvrir ce que l'inférence rapide rend possible : de nouveaux modèles d'interaction, de nouveaux cas d'utilisation et une expérience de modèle fondamentalement différente. » Lie a décrit cet aperçu comme « un simple début ».

Voici un extrait de l'annonce :

Présentation de GPT‑5.3‑Codex‑Spark

Rapidité et intelligence

Codex-Spark est optimisé pour les travaux interactifs où la latence est aussi importante que l'intelligence. Vous pouvez collaborer avec le modèle en temps réel, l'interrompre ou le rediriger pendant qu'il fonctionne, et itérer rapidement avec des réponses quasi instantanées. Parce qu'il est conçu pour la rapidité, Codex-Spark conserve un mode de fonctionnement par défaut léger : il effectue des modifications minimales et ciblées et n'exécute pas automatiquement de tests, sauf si vous le lui demandez.

Codage

Codex-Spark est un petit modèle très performant optimisé pour une inférence rapide. Sur SWE-Bench Pro et Terminal-Bench 2.0, deux benchmarks évaluant les capacités d'ingénierie logicielle agentique, GPT‑5.3‑Codex‑Spark affiche des performances solides tout en accomplissant les tâches en un temps record par rapport à GPT‑5.3‑Codex.

Amélioration de la latence pour tous les modèles

Au fur et à mesure que nous avons formé Codex-Spark, il est devenu évident que la vitesse du modèle n'était qu'une partie de l'équation pour la collaboration en temps réel : nous devions également réduire la latence sur l'ensemble du pipeline de requêtes-réponses. Nous avons mis en œuvre des améliorations de la latence de bout en bout dans notre harnais, qui profiteront à tous les modèles. En coulisses, nous avons rationalisé la manière dont les réponses circulent du client vers le serveur et vice versa, réécrit des éléments clés de notre pile d'inférence et retravaillé la manière dont les sessions sont initialisées afin que le premier jeton visible apparaisse plus tôt et que Codex reste réactif à mesure que vous itérez. Grâce à l'introduction d'une connexion WebSocket persistante et à des optimisations ciblées au sein de l'API Responses, nous avons réduit la surcharge par aller-retour client/serveur de 80 %, la surcharge par jeton de 30 % et le temps de réponse du premier jeton de 50 %. Le chemin WebSocket est activé par défaut pour Codex-Spark et deviendra bientôt la norme pour tous les modèles.

Disponibilité et détails

Codex-Spark est lancé en tant qu'aperçu de recherche pour les utilisateurs de ChatGPT Pro dans les dernières versions de l'application Codex, de l'interface CLI et de l'extension VS Code. Comme il fonctionne sur du matériel spécialisé à faible latence, son utilisation est régie par une limite de débit distincte qui peut être ajustée en fonction de la demande pendant la période d'aperçu de recherche. Codex-Spark est également disponible pour un petit groupe de partenaires de conception dans l'API. OpenAI élargira l'accès au cours des prochaines semaines.

Codex-Spark est actuellement disponible en mode texte uniquement avec une fenêtre contextuelle de 128 000 jetons et est le premier d'une famille de modèles ultra-rapides. Selon OpenAI, "à mesure que nous en apprendrons davantage avec la communauté des développeurs sur les domaines dans lesquels les modèles rapides excellent pour le codage, nous introduirons encore plus de fonctionnalités, notamment des modèles plus grands, des longueurs de contexte plus longues et des entrées multimodales." En outre, OpenAI affirme que Codex-Spark inclut la même formation à la sécurité que les modèles principaux d'OpenAI, y compris une formation relative à la cybersécurité. Ainsi, il n'y avait aucune chance plausible d'atteindre le seuil du cadre de préparation pour une capacité élevée en matière de cybersécurité ou de biologie.

Codex-Spark est la première étape vers un Codex doté de deux modes complémentaires : un raisonnement et une exécution à plus long terme, et une collaboration en temps réel pour une itération rapide. Au fil du temps, les modes se mélangeront : Codex pourrait vous maintenir dans une boucle interactive étroite tout en déléguant les tâches plus longues à des sous-agents en arrière-plan, ou en répartissant les tâches entre plusieurs modèles en parallèle lorsque vous souhaiterez gagner en ampleur et en vitesse, de sorte que vous n'aurez pas à choisir un seul mode dès le départ. OpenAI conclut : "À mesure que les modèles deviennent plus performants, la vitesse d'interaction devient un goulot d'étranglement évident. L'inférence ultra-rapide resserre cette boucle, rendant Codex plus naturel à utiliser et élargissant les possibilités pour quiconque souhaite transformer une idée en logiciel fonctionnel."

Source : OpenAI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI s'appuie désormais sur son agent de programmation IA Codex pour améliorer son propre code : « Je pense que la grande majorité de Codex est construite par Codex », déclare son chef de produit

Le fabricant de puces pour l'IA Cerebras dépose une demande d'introduction en bourse pour affronter Nvidia, qui domine largement le marché des puces pour l'IA avec plus de 80 % des parts

OpenAI pourrait dépenser jusqu'à 15 millions de dollars par jour pour des vidéos futiles générées par Sora. Les coûts augmentent si rapidement qu'elle prévoit de réduire les allocations gratuites de génération

Vous avez lu gratuitement 5 120 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI lance GPT-5.3-Codex-Spark, optimisé par la puce Wafer Scale Engine 3 de Cerebras, pour un codage en temps réel ultra-rapide, 15 fois plus rapide que son prédécesseur

Identifiant
Mot de passe

Mot de passe oublié ?