Le lancement de GPT-5 a suscité des réactions mitigées, oscillant entre l'enthousiasme pour ses performances techniques et l'inquiétude concernant la direction stratégique de son créateur. Après plus de deux ans de développement, la mise à jour très attendue du système qui alimente l'application ChatGPT d'OpenAI, extrêmement populaire, a été saluée par certains des premiers utilisateurs comme « évolutive plutôt que révolutionnaire ». La réaction mitigée à la sortie de GPT-5, le modèle de langage de nouvelle génération de cette entreprise valorisée à 300 milliards de dollars, intervient alors que les dirigeants de la Silicon Valley continuent de prédire l'arrivée imminente d'ordinateurs « superintelligents », propulsant l'essor actuel de l'IA.L’un des points les plus salués concerne ses performances dans la revue de code. Selon le PR Benchmark de Qodo, qui évalue les modèles à partir de revues de pull requests réelles, GPT-5 surpasse la majorité de ses concurrents, notamment en détection de bugs critiques, en pertinence des suggestions et en respect des contraintes de projet. Les résultats des variantes « medium » et « large » dépassent les 70 points, un score jugé excellent pour ce type de tâche.
Voici les forces qui lui ont été remarquées par ce baromètre :
- Couverture plus large des bogues et focalisation sur les problèmes critiques : Il s'agit souvent du seul modèle permettant de détecter les problèmes critiques tels que les failles de sécurité ou les failles de compilation.
- Des correctifs précis et concis : Différences minimales et valides qui ne touchent que les nouvelles lignes - pas de bruit de style, juste de l'impact.
- Conformité aux règles et clarté : Adhésion forte aux contraintes de révision avec des justifications courtes et bien argumentées.
- Filtrage de la criticité : Ne renvoie souvent rien lorsqu'il n'y a pas de problème réel, évitant ainsi un surcroît de travail inutile.
En voici les faiblesses :
- Faux positifs : quelques évaluations contiennent des corrections incorrectes ou nuisibles.
- Étiquetage incohérent : classifie parfois de manière erronée la gravité des résultats ou aborde des sujets interdits.
- Redondance : certaines répétitions ou suggestions insignifiantes diluent l'utilité de l'évaluation.
Selon Qodo : « ce modèle fournit systématiquement des analyses qui identifient davantage de problèmes réels, rédigent des correctifs plus clairs et le font avec une grande transparence dans le raisonnement. C'est un autre exemple qui montre comment les modèles peuvent être optimisés non seulement pour les benchmarks, mais aussi pour gagner la confiance réelle des développeurs ».
GPT-5 domine la concurrence en matière de performance de l'examen du code
Des erreurs embarrassantes, des améliorations jugées modestes
Malgré le discours marketing sur cette intelligence artificielle de pointe, qualifiée « d'intelligence de niveau doctorat » par ses créateurs, GPT-5 pense qu'il y a trois « r » dans le mot « Northern Territory ». C'est ce qu'ont découvert les utilisateurs après avoir essayé la dernière mouture de ChatGPT.
Lors d'un événement de lancement de GPT-5 jeudi, le PDG d'OpenAI, Sam Altman, a décrit la dernière version de ChatGPT comme « l'accès à un expert de niveau doctorat dans votre poche », comparant la version précédente à un étudiant universitaire et celle d'avant à un lycéen.
Cependant, lorsque les utilisateurs des réseaux sociaux ont tenté de mettre GPT-5 au défi, ils ont constaté que le modèle commettait des erreurs élémentaires dans ses réponses. Un utilisateur de Bluesky a remarqué que le chatbot affirmait à plusieurs reprises qu'il y avait trois B dans « blueberry ».
« Oui, blueberry est l'un de ces mots dont le milieu vous fait presque trébucher, comme s'il disait « b-b-better pay attention » (mieux vaut faire attention) », a déclaré le chatbot dans la conversation publiée. « Mais ce petit moment bb est satisfaisant, il rend le mot encore plus entraînant. »
Un autre utilisateur a constaté que le chatbot était incapable d'identifier correctement les États américains contenant la lettre R. Et lorsqu'on lui a demandé de produire une carte, il a mal orthographié des États tels que « Krizona » et « Vermoni ». ChatGPT a également répertorié deux fois la Californie et inventé les États « New Jefst » et « Mitroinia ».
Une évolution incrémentale plutôt qu’une révolution
Si GPT-5 brille dans certaines tâches techniques, nombre de spécialistes...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

finit par me sortir tout simplement une synthèse mal faite du How to officiel de la marque merging.(rien que pour pyramix, c’est plus de 800 pages de Manuel. Sans compter les manuels des cartes son et cette nullité artificielle me sort 10 lignes ça c’est du pouvoir de synthèse.
c’est vraiment du gros marketing qui tache. Peut-être que dans quelques années, ça existera vraiment, mais pour l’instant, c’est vraiment de la daube. L’expression est parfaitement employée, c’est vraiment une bulle. Il est temps qu’elle éclate parce qu’on commence à en avoir ras le …
: