OpenAI annonce GPT-5.5, son dernier modèle d'IA, qui offre de meilleures performances en matière de programmation, d'utilisation des ordinateurs et de capacités de recherche approfondie. Ce lancement intervient quelques semaines seulement après qu'Anthropic a dévoilé Claude Mythos Preview, son nouveau modèle doté de capacités avancées en matière de cybersécurité. GPT-5.5 est en cours de déploiement auprès des abonnés payants d'OpenAI, notamment ses utilisateurs Plus, Pro, Business et Enterprise, dans ChatGPT et Codex.OpenAI est un organisme américain de recherche en intelligence artificielle (IA) composé d’une société à but lucratif d’intérêt public (PBC) et d’une fondation à but non lucratif, dont le siège se trouve à San Francisco. OpenAI a développé la famille de grands modèles de langage GPT, la série DALL-E de modèles de conversion texte-image et la série Sora de modèles de conversion texte-vidéo, qui ont influencé la recherche industrielle et les applications commerciales. Le lancement de ChatGPT en novembre 2022 est considéré comme ayant suscité un intérêt généralisé pour l'IA générative.
Récemment, OpenAI a annoncé son dernier modèle d'IA, GPT-5.5, qui, selon la société, est plus performant en matière de codage, d'utilisation des ordinateurs et de capacités de recherche approfondie. Ce lancement intervient moins de deux mois après la sortie de GPT 5.4 par OpenAI, dernier signe en date du rythme effréné de développement qui anime le secteur de l’IA. OpenAI se lance dans une course effrénée pour rester dans la course face à des rivaux tels que Google et Anthropic, dont le dernier modèle, Claude Mythos Preview, a captivé Wall Street.
« Ce qui rend ce modèle vraiment spécial, c’est tout ce qu’il peut accomplir avec moins de directives », a déclaré Greg Brockman, président d’OpenAI. « Il est capable d’analyser un problème flou et de déterminer exactement ce qu’il faut faire ensuite. Pour moi, cela donne vraiment l’impression de jeter les bases de la manière dont nous allons utiliser les ordinateurs et travailler avec eux à l’avenir. »
OpenAI a déclaré que GPT-5.5 excelle dans l’analyse de données, l’écriture et le débogage de code, l’utilisation de logiciels, la recherche en ligne et la création de documents et de feuilles de calcul. La société a ajouté que le modèle ne dépasse pas son seuil de risque de cybersécurité « critique », qui pourrait ouvrir « de nouvelles voies sans précédent vers des dommages graves », mais qu’il répond aux critères de sa classification de risque « élevé », qui pourrait « amplifier les voies existantes vers des dommages graves ».
« GPT-5.5 a fait l’objet de tests de sécurité approfondis menés par des tiers et d’exercices de red teaming portant sur les risques cybernétiques et biologiques, et nous avons perfectionné nos mesures de sécurité informatique pendant des mois avec des modèles de plus en plus performants en matière de cybersécurité », a déclaré Mia Glaese, vice-présidente de la recherche chez OpenAI. Les risques de cybersécurité liés à l’IA sont au centre des préoccupations des dirigeants du secteur technologique et des responsables gouvernementaux depuis qu’Anthropic a annoncé son modèle Mythos au début du mois. La société a décidé de limiter le déploiement de Mythos en raison de sa capacité à identifier les faiblesses et les failles de sécurité au sein des logiciels.
GPT-5.5 est déployé ce jeudi auprès des abonnés payants d’OpenAI, notamment les utilisateurs des formules Plus, Pro, Business et Enterprise, dans ChatGPT et son assistant de codage Codex. La société a indiqué que le modèle serait disponible « très bientôt » sur son interface de programmation d’applications, mais que ces déploiements nécessitaient « des mesures de sécurité différentes ».
Voici un extrait de l'annonce de GPT-5.5 :
Présentation de GPT-5.5
Nous lançons GPT-5.5, notre modèle le plus intelligent et le plus intuitif à ce jour, qui marque une nouvelle étape vers une nouvelle façon de travailler sur ordinateur.
GPT-5.5 comprend plus rapidement ce que vous essayez de faire et peut prendre en charge une plus grande partie du travail. Il excelle dans l'écriture et le débogage de code, la recherche en ligne, l'analyse de données, la création de documents et de feuilles de calcul, l'utilisation de logiciels et le passage d'un outil à l'autre jusqu'à ce qu'une tâche soit terminée. Au lieu de gérer minutieusement chaque étape, vous pouvez confier à GPT-5.5 une tâche complexe et fragmentée, et lui faire confiance pour planifier, utiliser des outils, vérifier son travail, gérer les ambiguïtés et persévérer.
Les gains sont particulièrement importants dans le codage agentique, l’utilisation de l’ordinateur, le travail intellectuel et la recherche scientifique préliminaire — des domaines où les progrès dépendent de la capacité à raisonner dans un contexte global et à agir sur la durée. GPT-5.5 offre cette avancée en matière d’intelligence sans compromettre la vitesse : les modèles plus volumineux et plus performants sont souvent plus lents à servir, mais GPT-5.5 égale la latence par token de GPT-5.4 en conditions réelles, tout en offrant un niveau d’intelligence bien supérieur. Il utilise également nettement moins de tokens pour accomplir les mêmes tâches Codex, ce qui le rend à la fois plus efficace et plus performant.
Nous lançons GPT-5.5 avec notre ensemble de mesures de sécurité le plus solide à ce jour, conçu pour réduire les abus tout en préservant l'accès à des fins utiles. Nous avons évalué ce modèle à l'aide de l'ensemble de nos cadres de sécurité et de préparation, collaboré avec des redteamers internes et externes, ajouté des tests ciblés pour les capacités avancées en matière de cybersécurité et de biologie, et recueilli des retours sur des cas d'utilisation réels auprès de près de 200 partenaires de confiance bénéficiant d'un accès anticipé avant le lancement.
Aujourd'hui, GPT-5.5 est déployé pour les utilisateurs Plus, Pro, Business et Enterprise dans ChatGPT et Codex, et GPT-5.5 Pro est déployé pour les utilisateurs Pro, Business et Enterprise dans ChatGPT. Les déploiements via l'API nécessitent des mesures de protection différentes et nous travaillons en étroite collaboration avec nos partenaires et nos clients sur les exigences de sécurité et de sûreté pour le proposer à grande échelle. Nous intégrerons très prochainement GPT-5.5 et GPT-5.5 Pro à l'API.
Capacités du modèle
OpenAI met en place l'infrastructure mondiale pour l'IA agentique, permettant ainsi aux particuliers et aux entreprises du monde entier d'accomplir leurs tâches grâce à l'IA. Au cours de l'année écoulée, nous avons vu l'IA accélérer considérablement le développement logiciel. Avec GPT-5.5 dans Codex et ChatGPT, cette même transformation commence à s'étendre à la recherche scientifique et à l'ensemble des tâches que les gens effectuent sur ordinateur.
Dans tous ces domaines, GPT-5.5 n'est pas seulement plus intelligent ; il est plus efficace dans sa manière de résoudre les problèmes, produisant souvent des résultats de meilleure qualité avec moins de tokens et moins de tentatives. Sur l'indice de codage d'Artificial Analysis, GPT-5.5 offre une intelligence de pointe à moitié prix par rapport aux modèles de codage de pointe concurrents.
Codage agentique
GPT-5.5 est notre modèle de codage agentique le plus performant à ce jour. Sur Terminal-Bench 2.0, qui teste des workflows complexes en ligne de commande nécessitant de la planification, des itérations et la coordination d'outils, il atteint une précision de pointe de 82,7 %. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub en conditions réelles, il atteint 58,6 %, résolvant plus de tâches de bout en bout en un seul passage que les modèles précédents. Sur Expert-SWE, notre évaluation interne de référence pour les tâches de codage à long terme dont le temps de réalisation humain estimé est de 20 heures en moyenne, GPT-5.5 surpasse également GPT-5.4.
Sur l'ensemble des trois évaluations, GPT-5.5 améliore les scores de GPT-5.4 tout en utilisant moins de tokens.
Les atouts du modèle en matière de codage apparaissent particulièrement clairement dans Codex, où il peut prendre en charge des tâches d'ingénierie allant de l'implémentation et de la refactorisation au débogage, aux tests et à la validation. Les premiers tests suggèrent que GPT-5.5 est plus performant dans les comportements sur lesquels repose le véritable travail d'ingénierie, comme la gestion du contexte dans des systèmes de grande envergure, le raisonnement face à des échecs ambigus, la vérification des hypothèses à l'aide d'outils et la propagation des modifications dans la base de code environnante.
Au-delà des benchmarks, les premiers testeurs ont indiqué que GPT-5.5 fait preuve d'une plus grande capacité à comprendre la structure d'un système : pourquoi quelque chose ne fonctionne pas, où la correction doit être appliquée et quels autres éléments de la base de code seraient affectés.
Travail intellectuel
Les mêmes atouts qui font de GPT-5.5 un excellent outil de codage le rendent également puissant pour le travail quotidien sur ordinateur. Comme le modèle comprend mieux l’intention, il peut évoluer plus naturellement à travers le cycle complet du travail intellectuel : trouver des informations, comprendre ce qui importe, utiliser des outils, vérifier le résultat et transformer des données brutes en quelque chose d’utile.
Dans Codex, GPT-5.5 est plus performant que GPT-5.4 pour générer des documents, des feuilles de calcul et des présentations PowerPoint. Les testeurs alpha ont déclaré qu’il surpassait les modèles précédents dans des tâches telles que la recherche opérationnelle, la modélisation sur tableur et la transformation de données commerciales désordonnées en plans. Associé aux compétences informatiques de Codex, GPT-5.5 nous donne davantage l’impression que le modèle peut réellement utiliser l’ordinateur avec vous : voir ce qui s’affiche à l’écran, cliquer, taper, naviguer dans les interfaces et passer d’un outil à l’autre avec précision.
Les équipes d’OpenAI exploitent déjà ces atouts dans des flux de travail réels. Aujourd’hui, plus de 85 % de l’entreprise utilise Codex chaque semaine dans des fonctions telles que l’ingénierie logicielle, la finance, la communication, le marketing, la science des données et la gestion de produits. Au sein de l’équipe Communication, l’équipe a utilisé GPT-5.5 dans Codex pour analyser six mois de données relatives aux demandes d’intervention, mettre en place un cadre de notation et d’évaluation des risques, et valider un agent Slack automatisé afin que les demandes à faible risque puissent être traitées...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.