OpenAI a dévoilé la dernière version tant attendue de son chatbot IA, GPT-5, affirmant qu'il offre une expertise de niveau doctorat : « plus intelligent, plus rapide et plus utile »

Le 7 août 2025 à 20:45, par Jade Emy

29PARTAGES

OpenAI a dévoilé la dernière version tant attendue de son chatbot basé sur l'intelligence artificielle (IA), GPT-5, affirmant qu'il offre une expertise de niveau doctorat. Présenté comme « plus intelligent, plus rapide et plus utile », Sam Altman, a salué le nouveau modèle de l'entreprise comme marquant le début d'une nouvelle ère pour ChatGPT. Altman a déclaré que le nouveau modèle d'OpenAI souffrirait de moins d'hallucinations (phénomène par lequel les grands modèles de langage inventent des réponses) et serait moins trompeur. En outre, OpenAI présente également GPT-5 aux codeurs comme un assistant compétent, suivant ainsi une tendance parmi les principaux développeurs américains d'IA, notamment Anthropic, dont Claude Code cible le même marché.

En juillet, un rapport indiquait qu'OpenAI prévoit de lancer son modèle GPT-5 dès ce mois d'août 2025. Le nouveau modèle s'inscrit dans la stratégie d'OpenAI visant à combiner ses technologies GPT et o-series en un seul système, pour faciliter le travail des utilisateurs et des développeurs. Cette intégration devrait simplifier le processus de choix entre les modèles, en particulier pour les tâches qui reposent sur le raisonnement. Précédemment, le PDG Sam Altman avait laissé entendre que GPT-5 ne ressemblera en rien aux modèles actuels et devrait être une évolution majeure de l'IA générative.

Ce 7 août 2025, OpenAI a dévoilé la dernière version tant attendue de son chatbot basé sur l'intelligence artificielle (IA), GPT-5, affirmant qu'il offre une expertise de niveau doctorat. Présenté comme « plus intelligent, plus rapide et plus utile », Sam Altman, a salué le nouveau modèle de l'entreprise comme marquant le début d'une nouvelle ère pour ChatGPT. « Je pense qu'un outil tel que GPT-5 aurait été inimaginable à n'importe quelle autre période de l'histoire humaine », a-t-il déclaré avant le lancement.

La sortie de GPT-5 et les affirmations concernant ses capacités « de niveau doctorat » dans des domaines tels que le codage et l'écriture interviennent alors que les entreprises technologiques continuent de se disputer la place du chatbot IA le plus avancé. Elon Musk a récemment fait des déclarations similaires au sujet de son propre chatbot IA, Grok, qui a été intégré à X (anciennement Twitter). Lors du lancement de la dernière version de Grok le mois dernier, Musk a déclaré qu'il était « meilleur qu'un doctorat dans tous les domaines » et l'a qualifié d'« IA la plus intelligente au monde ».

Par ailleurs, Altman a déclaré que le nouveau modèle d'OpenAI souffrirait de moins d'hallucinations (phénomène par lequel les grands modèles de langage inventent des réponses) et serait moins trompeur. En outre, OpenAI présente également GPT-5 aux codeurs comme un assistant compétent, suivant ainsi une tendance parmi les principaux développeurs américains d'IA, notamment Anthropic, dont Claude Code cible le même marché.

https://youtu.be/0Uu_VJeVVfo

OpenAI a mis en avant la capacité de GPT-5 à créer des logiciels dans leur intégralité et à faire preuve de meilleures capacités de raisonnement, avec des réponses qui montrent le fonctionnement, la logique et le raisonnement. La société affirme qu'il a été formé pour être plus honnête, fournir aux utilisateurs des réponses plus précises et, dans l'ensemble, paraître plus humain.

Selon Altman, le modèle est « nettement meilleur » que ses prédécesseurs. « GPT-3 me donnait l'impression de parler à un lycéen... le 4 donnait l'impression de parler à un étudiant », a-t-il déclaré lors d'une conférence de presse avant le lancement. « Le GPT-5 est le premier à donner vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat. »

Pour le professeur Carissa Véliz de l'Institute for Ethics in AI, cependant, le lancement du GPT-5 n'est peut-être pas aussi important que le suggère son marketing. « Ces systèmes, aussi impressionnants soient-ils, n'ont pas encore été vraiment rentables », a-t-elle déclaré, soulignant également qu'ils ne peuvent qu'imiter les capacités de raisonnement humain, sans les reproduire véritablement. « On craint de devoir entretenir le battage médiatique, sinon la bulle pourrait éclater, et il se pourrait donc qu'il s'agisse principalement de marketing. »

Une déclaration qui rappelle celle de Bill Gates en 2023. À l'époque, Bill Gates, fondateur de Microsoft, a déclaré qu'il y a de nombreuses raisons de penser que la technologie GPT a atteint un plateau. Gates affirmait que "de nombreuses personnes compétentes" travaillant chez OpenAI sont convaincues que GPT-5 sera nettement meilleur que GPT-4, y compris le PDG d'OpenAI, Sam Altman. Mais il a pensé que l'IA générative actuelle a atteint un plafond, même s'il a admis qu'il peut se tromper. Comme référence pour ce qu'il considère comme une amélioration majeure de la qualité, il a cité le grand bond en avant de la qualité entre GPT-2 et GPT-4, qu'il a qualifié d'"incroyable".

La société déploiera désormais le modèle auprès de tous les utilisateurs. Dans les prochains jours, on verra beaucoup plus clairement s'il est vraiment aussi performant que le prétend Sam Altman. Mais en proposant une version gratuite de son nouveau modèle, la société pourrait signaler un éventuel abandon des modèles propriétaires qui dominaient jusqu'à présent son offre.

https://youtu.be/MmFLDvOFLW0

Cette annonce intervient alors qu'Anthropic a récemment révoqué l'accès d'OpenAI à son interface de programmation d'applications (API), affirmant que l'entreprise violait ses conditions d'utilisation en utilisant ses outils de codage avant le lancement de GPT-5. Un porte-parole d'OpenAI a déclaré qu'il était « courant dans le secteur » d'évaluer d'autres systèmes d'IA afin d'évaluer ses propres progrès et sa sécurité. « Bien que nous respections la décision d'Anthropic de nous couper l'accès à son API, nous trouvons cela décevant étant donné que notre API reste à leur disposition », a-t-il ajouté.

En outre, OpenAI a révélé qu'elle apportait des changements afin de promouvoir une relation plus saine entre les utilisateurs et ChatGPT. Elle a déclaré : « L'IA peut sembler plus réactive et plus personnelle que les technologies précédentes, en particulier pour les personnes vulnérables souffrant de détresse mentale ou émotionnelle. » Elle a déclaré qu'elle ne donnerait pas de réponse définitive à des questions telles que « Dois-je rompre avec mon petit ami ? ». Au lieu de cela, elle « vous aiderait à y réfléchir, en posant des questions et en pesant le pour et le contre », selon l'article de blog.

En mai, OpenAI a retiré une mise à jour très critiquée qui rendait ChatGPT « trop flatteur », selon Sam Altman. Dans un épisode récent du podcast d'OpenAI, Altman a déclaré qu'il réfléchissait à la manière dont les gens interagissent avec ses produits. « Tout ne sera pas rose, il y aura encore des problèmes », a-t-il déclaré. « Les gens développeront des relations parasociales quelque peu problématiques, voire très problématiques, [avec l'IA]. La société devra trouver de nouvelles garde-fous. Mais les avantages seront considérables. »

Altman est connu pour être un fan du film Her, sorti en 2013, dans lequel un homme développe une relation avec une compagne IA. En 2024, l'actrice Scarlett Johansson, qui a prêté sa voix à la compagne IA dans le film, s'est dite « choquée » et « en colère » après le lancement par OpenAI d'un chatbot dont la voix était « étrangement similaire » à la sienne.

Voici l'annonce de GPT-5 :

[QUOTE]Présentation de GPT-5 pour les développeurs

Aujourd'hui, nous lançons GPT-5 sur notre plateforme API, notre meilleur modèle à ce jour pour les tâches de codage et d'agent.

GPT-5 est à la pointe de la technologie (SOTA) dans les principaux benchmarks de codage, avec un score de 74,9 % sur SWE-bench Verified et de 88 % sur Aider polyglot. Nous avons formé GPT-5 pour qu'il soit un véritable collaborateur en matière de codage. Il excelle dans la production de code de haute qualité et dans la gestion de tâches telles que la correction de bogues, l'édition de code et la réponse à des questions sur des bases de code complexes. Le modèle est orientable et collaboratif : il peut suivre des instructions très détaillées avec une grande précision et fournir des explications préalables sur ses actions avant et entre les appels d'outils. Le modèle excelle également dans le codage front-end, battant OpenAI o3 dans le développement web front-end 70 % du temps lors de tests internes.

Nous avons formé GPT-5 à des tâches de codage réelles en collaboration avec les premiers testeurs de startups et d'entreprises. Cursor affirme que GPT-5 est « le modèle le plus intelligent [qu'ils aient] utilisé » et « remarquablement intelligent, facile à diriger et doté d'une personnalité [qu'ils] n'ont vue dans aucun autre modèle ». Windsurf a déclaré que GPT-5 est le meilleur modèle selon leurs évaluations et « présente un taux d'erreur d'appel d'outils deux fois moins élevé que les autres modèles de pointe ». Vercel affirme qu'il s'agit du « meilleur modèle d'IA front-end, atteignant des performances optimales tant en termes d'esthétique que de qualité du code, ce qui le place dans une catégorie à part ».

GPT-5 excelle également dans les tâches agentives de longue durée, obtenant des résultats SOTA sur τ2-bench telecom (96,7 %), un benchmark d'appel d'outils publié il y a seulement deux mois. L'intelligence améliorée de GPT-5 lui permet d'enchaîner de manière fiable des dizaines d'appels d'outils, à la fois en séquence et en parallèle, sans se perdre, ce qui le rend bien plus performant dans l'exécution de tâches complexes et réelles de bout en bout. Il suit également les instructions des outils avec plus de précision, gère mieux les erreurs des outils et excelle dans la récupération de contenu à long contexte. Manus affirme que GPT-5 « a obtenu les meilleures performances [qu'ils aient] jamais vues pour un seul modèle sur [leurs] benchmarks internes ». Notion affirme que « les réponses rapides [du modèle], en particulier en mode de raisonnement faible, font de GPT-5 un modèle idéal lorsque vous avez besoin de résoudre des tâches complexes en une seule fois ». Inditex a déclaré que « ce qui distingue vraiment [GPT-5], c'est la profondeur de son raisonnement : des réponses nuancées et multicouches qui reflètent une réelle compréhension du sujet ».

Nous introduisons de nouvelles fonctionnalités dans notre API afin de donner aux développeurs plus de contrôle sur les réponses du modèle. GPT-5 prend en charge un nouveau paramètre de verbosité (valeurs : faible, moyenne, élevée) qui permet de contrôler si les réponses sont courtes et concises ou longues et complètes. Le paramètre reasoning_effort de GPT-5 peut désormais prendre une valeur minimale pour obtenir des réponses plus rapidement, sans raisonnement approfondi préalable. Nous avons également ajouté un nouveau type d'outil, les outils personnalisés, pour permettre à GPT-5 d'appeler des outils avec du texte brut au lieu de JSON. Les outils personnalisés prennent en charge les contraintes imposées par les grammaires sans contexte fournies par les développeurs.

Nous lançons GPT-5 en trois tailles dans l'API (gpt-5, gpt-5-mini et gpt-5-nano) afin d'offrir aux développeurs plus de flexibilité pour trouver le bon équilibre entre performances, coût et latence. Alors que GPT-5 dans ChatGPT est un système de modèles de raisonnement, de non-raisonnement et de routage, GPT-5 dans la plateforme API est le modèle de raisonnement qui optimise les performances dans ChatGPT. Il est à noter que GPT-5 avec un raisonnement minimal est un modèle différent du modèle de non-raisonnement dans ChatGPT, et qu'il est mieux adapté aux développeurs. Le modèle non raisonnant utilisé dans ChatGPT est disponible sous le nom gpt-5-chat-latest.

Codage

GPT-5 est le modèle de codage le plus puissant que nous ayons jamais publié. Il surpasse o3 dans les benchmarks de codage et les cas d'utilisation réels, et a été optimisé pour exceller dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. GPT-5 a impressionné nos testeurs alpha, établissant des records dans bon nombre de leurs évaluations internes privées.

Sur SWE-bench Verified, une évaluation basée sur des tâches réelles d'ingénierie logicielle, GPT-5 obtient un score de 74,9 %, contre 69,1 % pour o3. Il est à noter que GPT-5 atteint ce score élevé avec une efficacité et une rapidité accrues : par rapport à o3, qui nécessite un effort de raisonnement important, GPT-5 utilise 22 % de tokens de sortie en moins et 45 % d'appels d'outils en moins.

Sur Aider polyglot, une évaluation de l'édition de code, GPT-5 établit un nouveau record de 88 %, soit une réduction d'un tiers du taux d'erreur par rapport à o3.

Nous avons également constaté que GPT-5 excellait dans l'analyse approfondie des bases de code pour répondre à des questions sur le fonctionnement ou l'interopérabilité de divers éléments. Dans une base de code aussi complexe que la pile d'apprentissage par renforcement d'OpenAI, nous constatons que GPT-5 peut nous aider à raisonner et à répondre à des questions sur notre code, ce qui accélère notre travail quotidien.

Ingénierie frontend

Lors de la production de code frontend pour les applications web, GPT-5 est plus esthétique, ambitieux et précis. Dans des comparaisons côte à côte avec o3, GPT-5 a été préféré par nos testeurs dans 70 % des cas.

Collaboration en matière de codage

GPT-5 est un meilleur collaborateur, en particulier dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. Tout en fonctionnant, GPT-5 peut produire des plans, des mises à jour et des récapitulatifs entre les appels d'outils. Par rapport à nos modèles précédents, GPT-5 est plus proactif dans la réalisation de tâches ambitieuses sans attendre votre feu vert ni reculer devant une grande complexité.

Tâches agentives

Au-delà du codage agentif, GPT-5 est généralement plus performant dans les tâches agentives. GPT-5 établit de nouveaux records en matière de suivi des instructions (69,6 % sur Scale MultiChallenge, selon la notation de o3-mini) et d'appel d'outils (96,7 % sur τ2-bench telecom). L'amélioration de l'intelligence des outils permet à GPT-5 d'enchaîner de manière plus fiable les actions pour accomplir des tâches concrètes.

Suivi des instructions

GPT-5 suit les instructions de manière plus fiable que tous ses prédécesseurs, obtenant des scores élevés sur COLLIE, Scale MultiChallenge et notre évaluation interne du suivi des instructions.

Appel d'outils

Nous avons travaillé dur pour améliorer l'appel d'outils de manière significative pour les développeurs. GPT-5 est plus performant dans le suivi des instructions des outils, dans la gestion des erreurs des outils et dans l'appel proactif de nombreux outils en séquence ou en parallèle. Lorsqu'on lui en donne l'instruction, GPT-5 peut également générer des messages d'introduction avant et entre les appels d'outils afin d'informer les utilisateurs de la progression des tâches agencées plus longues.

Il y a deux mois, τ2-bench telecom a été publié par Sierra.ai comme un benchmark difficile d'utilisation des outils qui mettait en évidence la baisse significative des performances des modèles linguistiques lorsqu'ils interagissent avec un environnement pouvant être modifié par les utilisateurs. Dans leur publication⁠, aucun modèle n'a obtenu un score supérieur à 49 %. GPT-5 obtient un score de 97 %.

GPT-5 montre également de nettes améliorations en matière de performances dans les contextes longs. Sur OpenAI-MRCR, une mesure de la recherche d'informations dans des contextes longs, GPT-5 surpasse o3 et GPT-4.1, avec une marge qui augmente considérablement lorsque la longueur des entrées est plus importante.

Nous mettons également en open source BrowseComp Long Context⁠, un nouveau benchmark pour évaluer les questions-réponses à contexte long. Dans ce benchmark, le modèle reçoit une requête utilisateur, une longue liste de résultats de recherche pertinents, et doit répondre à la question en se basant sur les résultats de recherche. Nous avons conçu BrowseComp Long Context pour qu'il soit réaliste, difficile et qu'il fournisse des réponses fiables et correctes. Sur des entrées de 128 000 à 256 000 tokens, GPT-5 donne la bonne réponse dans 89 % des cas.

Dans l'API, tous les modèles GPT-5 peuvent accepter un maximum de 272 000 tokens en entrée et émettre un maximum de 128 000 tokens de raisonnement et de sortie, pour une longueur de contexte totale de 400 000 tokens.

Facticité[...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :