
L’un des points les plus salués concerne ses performances dans la revue de code. Selon le PR Benchmark de Qodo, qui évalue les modèles à partir de revues de pull requests réelles, GPT-5 surpasse la majorité de ses concurrents, notamment en détection de bugs critiques, en pertinence des suggestions et en respect des contraintes de projet. Les résultats des variantes « medium » et « large » dépassent les 70 points, un score jugé excellent pour ce type de tâche.
Voici les forces qui lui ont été remarquées par ce baromètre :
- Couverture plus large des bogues et focalisation sur les problèmes critiques : Il s'agit souvent du seul modèle permettant de détecter les problèmes critiques tels que les failles de sécurité ou les failles de compilation.
- Des correctifs précis et concis : Différences minimales et valides qui ne touchent que les nouvelles lignes - pas de bruit de style, juste de l'impact.
- Conformité aux règles et clarté : Adhésion forte aux contraintes de révision avec des justifications courtes et bien argumentées.
- Filtrage de la criticité : Ne renvoie souvent rien lorsqu'il n'y a pas de problème réel, évitant ainsi un surcroît de travail inutile.
En voici les faiblesses :
- Faux positifs : quelques évaluations contiennent des corrections incorrectes ou nuisibles.
- Étiquetage incohérent : classifie parfois de manière erronée la gravité des résultats ou aborde des sujets interdits.
- Redondance : certaines répétitions ou suggestions insignifiantes diluent l'utilité de l'évaluation.
Selon Qodo : « ce modèle fournit systématiquement des analyses qui identifient davantage de problèmes réels, rédigent des correctifs plus clairs et le font avec une grande transparence dans le raisonnement. C'est un autre exemple qui montre comment les modèles peuvent être optimisés non seulement pour les benchmarks, mais aussi pour gagner la confiance réelle des développeurs ».
GPT-5 domine la concurrence en matière de performance de l'examen du code
Des erreurs embarrassantes, des améliorations jugées modestes
Malgré le discours marketing sur cette intelligence artificielle de pointe, qualifiée « d'intelligence de niveau doctorat » par ses créateurs, GPT-5 pense qu'il y a trois « r » dans le mot « Northern Territory ». C'est ce qu'ont découvert les utilisateurs après avoir essayé la dernière mouture de ChatGPT.
Lors d'un événement de lancement de GPT-5 jeudi, le PDG d'OpenAI, Sam Altman, a décrit la dernière version de ChatGPT comme « l'accès à un expert de niveau doctorat dans votre poche », comparant la version précédente à un étudiant universitaire et celle d'avant à un lycéen.
Cependant, lorsque les utilisateurs des réseaux sociaux ont tenté de mettre GPT-5 au défi, ils ont constaté que le modèle commettait des erreurs élémentaires dans ses réponses. Un utilisateur de Bluesky a remarqué que le chatbot affirmait à plusieurs reprises qu'il y avait trois B dans « blueberry ».
« Oui, blueberry est l'un de ces mots dont le milieu vous fait presque trébucher, comme s'il disait « b-b-better pay attention » (mieux vaut faire attention) », a déclaré le chatbot dans la conversation publiée. « Mais ce petit moment bb est satisfaisant, il rend le mot encore plus entraînant. »
Un autre utilisateur a constaté que le chatbot était incapable d'identifier correctement les États américains contenant la lettre R. Et lorsqu'on lui a demandé de produire une carte, il a mal orthographié des États tels que « Krizona » et « Vermoni ». ChatGPT a également répertorié deux fois la Californie et inventé les États « New Jefst » et « Mitroinia ».
Une évolution incrémentale plutôt qu’une révolution
Si GPT-5 brille dans certaines tâches techniques, nombre de spécialistes soulignent qu’il ne s’agit que d’une évolution incrémentale plutôt que d’une révolution. En créativité et en raisonnement, il ne surpasse pas nettement ses rivaux, et serait même distancé par Grok 4 Heavy dans certaines évaluations.
« GPT-5 est excellent sur de nombreux fronts pratiques. Est-ce le meilleur modèle ? Peut-être. Mais dans certains domaines, les gains cognitifs sont modestes », a déclaré Azeem Azhar, de la newsletter sur l'IA Exponential View. « Je qualifierais cette nouvelle version d'évolutive plutôt que révolutionnaire », ajoutant qu'il ne s'agissait pas d'un « bond en avant vers une cognition plus proche de celle des humains ».
La pérennité de l'engouement actuel pour l'IA, qui génère des centaines de milliards de dollars d'investissements annuels dans les infrastructures des centres de données par les grandes entreprises technologiques, repose sur les prévisions des dirigeants du secteur de l'IA selon lesquelles l'intelligence artificielle générale, c'est-à-dire des systèmes dont l'intelligence dépasse celle des humains, serait disponible d'ici quelques années seulement.
« Les enjeux sont élevés pour OpenAI avec ce lancement », ont écrit vendredi les analystes de la Deutsche Bank dans une note de recherche adressée à leurs clients. « L'entreprise, et l'industrie dans son ensemble, ont besoin que [GPT-5] soit un succès pour prouver que le boom de l'IA n'est pas en train de s'essouffler. »
Sur la base d'une série de tests largement utilisés pour évaluer et comparer les modèles d'IA, GPT-5 a apporté des améliorations significatives par rapport aux modèles précédents d'OpenAI et a établi de nouveaux records dans des domaines essentiels tels que le codage et le raisonnement, tout en réduisant le nombre d'« hallucinations » ou d'erreurs dans ses réponses. De nombreux développeurs ont également félicité OpenAI pour avoir réduit le prix d'accès à son dernier modèle, qui est gratuit pour les utilisateurs de ChatGPT.
Cependant, certains des premiers utilisateurs de GPT-5 l'ont jugé moins impressionnant en matière d'écriture créative, tandis que d'autres espéraient des progrès plus importants par rapport aux concurrents de ChatGPT, tels qu'Anthropic et Google, alors que la course à la suprématie en matière d'IA se resserre. Grok 4 Heavy, lancé le mois dernier par xAI d'Elon Musk, surpasse toujours GPT-5 dans certains tests évaluant les capacités de raisonnement et de connaissance.
Nathan Lambert, chercheur à l'Allen Institute for AI, a déclaré qu'OpenAI avait tenté de trouver un équilibre entre les progrès constants de ses systèmes d'IA sous-jacents et l'amélioration de l'accessibilité et de la facilité d'utilisation de GPT-5.
« À bien des égards, GPT-5 était voué à l'échec, ce qui est très décourageant pour ceux qui s'attendent à des progrès maximaux en matière d'IA à court terme », a-t-il déclaré. « Les progrès de l'IA sont bien réels, tant que l'on ne croit pas à une augmentation exponentielle des capacités. Ces arguments sont très remis en question par la sortie de GPT-5. »
Avant le lancement de GPT-5, le directeur d'OpenAI, Sam Altman, a déclaré que même s'il ne s'agissait pas d'une IA générale, le nouveau système constituait tout de même une « amélioration considérable ».
« Je déteste un peu le terme AGI, car tout le monde l'utilise à ce stade pour désigner des choses légèrement différentes », a-t-il déclaré. « Il s'agit clairement d'un modèle qui est généralement intelligent, [mais] je pense que dans la façon dont la plupart d'entre nous définissons l'AGI, il nous manque encore quelque chose d'assez important. »
[CENTER]
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.