OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 :

GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT

Le 15 avril 2025 à 13:46, par Stéphane le calme

37PARTAGES

OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 :
GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT

OpenAI a annoncé la famille de modèles GPT-4.1, sa nouvelle série de modèles de langage d'IA qui apporte pour la première fois une fenêtre contextuelle d'un million de jetons à OpenAI et poursuit une longue tradition de noms de modèles d'IA très confus. Trois nouveaux noms déroutants, en fait : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Selon OpenAI, ces modèles sont plus performants que le GPT-4o dans plusieurs domaines clés. Mais, fait inhabituel, GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur, et non dans l'interface ChatGPT grand public où la plupart des gens interagissent avec la technologie d'OpenAI.

Dans le même temps, OpenAI prévoit de retirer progressivement GPT-4.5 de son API d'ici le 14 juillet 2025, en raison des performances supérieures et du coût réduit de GPT-4.1. Cette transition vise à offrir aux développeurs un modèle plus efficace et économique, tout en simplifiant la gamme de produits d'OpenAI. Cependant, il semble que le modèle GPT-4.5 restera dans ChatGPT pour le moment.

OpenAI a présenté GPT-4.1, le successeur du modèle d'IA multimodale GPT-4o lancé par l'entreprise l'année dernière. Au cours d'un livestream lundi, OpenAI a déclaré que GPT-4.1 dispose d'une fenêtre contextuelle encore plus grande et qu'il est meilleur que GPT-4o dans « à peu près toutes les dimensions », avec d'importantes améliorations en matière de codage et d'instructions.

GPT-4.1 est désormais disponible pour les développeurs, ainsi que deux versions plus petites. Il s'agit de GPT-4.1 Mini, qui, comme son prédécesseur, est plus abordable pour les développeurs, et de GPT-4.1 Nano, un modèle encore plus léger qui, selon OpenAI, est « le plus petit, le plus rapide et le moins cher » à ce jour.

Ces trois modèles peuvent traiter jusqu'à un million de jetons de contexte, c'est-à-dire le texte, les images ou les vidéos contenus dans une invite. C'est bien plus que la limite de 128 000 jetons fixée par GPT-4o. La fenêtre contextuelle d'un million de jetons, c'est-à-dire la quantité de texte que l'IA peut traiter en une seule fois, permet à ces modèles d'ingérer environ 3 000 pages de texte au cours d'une seule conversation. Les fenêtres contextuelles d'OpenAI sont ainsi comparables à celles des modèles Gemini de Google, qui offrent des capacités contextuelles étendues similaires depuis un certain temps.

« Nous avons entraîné GPT-4.1 à s'occuper de manière fiable des informations sur la longueur totale d'un million de contextes », explique l'OpenAI dans un article annonçant les modèles. « Nous l'avons également entraîné à être beaucoup plus fiable que GPT-4o pour remarquer le texte pertinent et ignorer les distracteurs sur des longueurs de contexte courtes et longues ».

GPT 4.1 est également 26 % moins cher que GPT-4o, une mesure qui est devenue plus importante après le lancement du modèle d'IA ultra-efficace de DeepSeek.

Envoyé par OpenAI

Aujourd'hui, nous lançons trois nouveaux modèles dans l'API : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Ces modèles sont plus performants que les modèles GPT-4o et GPT-4o mini dans tous les domaines, avec des gains importants en matière de codage et de suivi des instructions. Ils disposent également de fenêtres contextuelles plus larges - supportant jusqu'à 1 million de tokens de contexte - et sont capables de mieux utiliser ce contexte avec une compréhension améliorée du contexte long. La date limite d'actualisation des connaissances est fixée à juin 2024.

Le GPT-4.1 excelle dans les mesures standard suivantes :

Codage : Le GPT-4.1 obtient un score de 54,6 % au banc d'essai SWE vérifié, soit une amélioration de 21,4 % par rapport au GPT-4o et de 26,6 % par rapport au GPT-4.5, ce qui en fait un modèle de premier plan en matière de codage.
Instruction suivante : Sur l'échelle MultiChallenge, une mesure de la capacité à suivre les instructions, le GPT-4.1 obtient un score de 38,3 %, soit une augmentation de 10,5 % par rapport au GPT-4o.
Contexte long : Sur Video-MME, un test de référence pour la compréhension multimodale du contexte long, GPT-4.1 établit un nouveau résultat de pointe, avec un score de 72,0 % dans la catégorie long, sans sous-titres, soit une amélioration de 6,7 %abs par rapport à GPT-4o.

Bien que les tests de référence fournissent des informations précieuses, nous avons formé ces modèles en nous concentrant sur leur utilité dans le monde réel. Une étroite collaboration et un partenariat avec la communauté des développeurs nous ont permis d'optimiser ces modèles pour les tâches les plus importantes pour leurs applications.

À cette fin, la famille de modèles GPT-4.1 offre des performances exceptionnelles à moindre coût. Ces modèles améliorent les performances à chaque point de la courbe de latence.

GPT-4.1 mini représente un saut significatif dans la performance des petits modèles, selon OpenAI

OpenAI note également ceci :

GPT-4.1 mini représente un saut significatif dans la performance des petits modèles, battant même GPT-4o dans de nombreux benchmarks. Il égale ou dépasse le GPT-4o dans les évaluations d'intelligence tout en réduisant la latence de près de la moitié et le coût de 83 %.

Pour les tâches exigeant une faible latence, GPT-4.1 nano est notre modèle le plus rapide et le moins cher. Il offre des performances exceptionnelles pour une taille réduite grâce à sa fenêtre contextuelle d'un million de jetons, et obtient un score de 80,1 % sur MMLU, 50,3 % sur GPQA et 9,8 % sur le codage polyglotte Aider, soit un score encore plus élevé que celui du GPT-4o mini. Il est idéal pour des tâches telles que la classification ou l'autocomplétion.

Ces améliorations de la fiabilité du suivi des instructions et de la compréhension des contextes longs rendent également les modèles GPT-4.1 beaucoup plus efficaces pour alimenter des agents, ou des systèmes qui peuvent accomplir des tâches de manière indépendante pour le compte d'utilisateurs. Associés à des primitives telles que l'API Responses, les développeurs peuvent désormais créer des agents plus utiles et plus fiables pour l'ingénierie logicielle dans le monde réel, l'extraction d'informations à partir de documents volumineux, la résolution de demandes de clients avec un minimum d'aide, et d'autres tâches complexes.

Notez que GPT-4.1 ne sera disponible que via l'API. Dans ChatGPT, de nombreuses améliorations en matière de suivi des instructions, de codage et d'intelligence ont été progressivement incorporées dans la dernière version de GPT-4o, et nous continuerons à en incorporer d'autres dans les prochaines versions.

La Preview GPT-4.5 bientôt supprimée de l'API

Ce lancement intervient alors qu'OpenAI prévoit de supprimer progressivement son modèle GPT-4 de ChatGPT, vieux de deux ans, le 30 avril, annonçant dans un changelog que les récentes mises à jour de GPT-4o en font un « successeur naturel » pour le remplacer. OpenAI prévoit également de supprimer l'aperçu GPT-4.5 dans l'API le 14 juillet, car « GPT-4.1 offre des performances améliorées ou similaires sur de nombreuses capacités clés à un coût et une latence bien moindres ».

GPT-4o, le modèle par défaut actuel de ChatGPT, a été mis à jour le mois dernier pour apporter de nouvelles capacités de génération d'images au chatbot, qui s'est avéré si populaire qu'OpenAI a dû limiter les demandes et mettre en attente l'accès à des comptes ChatGPT gratuits pour éviter que ses GPU ne »fondent".

La révélation de GPT-4.1 confirme le rapport selon lequel OpenAI se prépare à lancer de nouveaux modèles, et marque un tournant dans le calendrier de publication de l'entreprise. Le 4 avril, le PDG Sam Altman a annoncé sur X que le lancement du GPT-5 était repoussé et qu'il devrait maintenant arriver « dans quelques mois », plus tard que la date limite de mai qui était précédemment prévue. Altman explique que ce retard est dû en partie au fait qu'OpenAI « a eu plus de mal que prévu à tout intégrer en douceur ».

OpenAI devrait également présenter la version complète de son modèle de raisonnement o3 et un mini-modèle de raisonnement o4 d'ici peu, des références ayant déjà été repérées dans la dernière version web de ChatGPT par l'ingénieur en IA Tibor Blaho.

Tant de noms

Si cela semble déroutant, c'est parce que ça l'est. Le PDG d'OpenAI, Sam Altman, a reconnu l'habitude d'OpenAI de donner des noms de produits terribles en février lorsqu'il a discuté de la feuille de route vers le GPT-5 tant attendu (et toujours théorique).

« Nous sommes conscients de la complexité de notre modèle et de nos offres de produits », a écrit Altman sur X à l'époque, faisant référence à une interface ChatGPT déjà encombrée de choix tels que GPT-4o, diverses versions spécialisées de GPT-4o, GPT-4o mini, les modèles de raisonnement simulé o1-pro, o3-mini, et o3-mini-high, et GPT-4. L'objectif déclaré du GPT-5 sera la consolidation, un mouvement de marque visant à unifier les modèles de la série o et les modèles de la série GPT.

Comment le lancement d'un autre modèle numéroté, le GPT-4.1, s'inscrit-il dans ce grand plan d'unification ? Difficile à dire. Altman a laissé entrevoir ce type d'ambiguïté en mars 2024, en déclarant à Lex Friedman que l'entreprise allait lancer des modèles importants, mais qu'elle n'était pas sûre de leur nom : « avant de parler d'un modèle de type GPT-5 qui s'appelle comme ça, ou qui ne s'appelle pas comme ça, ou qui est un peu moins bon ou un peu meilleur que ce à quoi vous vous attendez... ».

La version 4.1 est-elle meilleure que la version 4.5 ? Oui et non

Sur certains points essentiels, la version 4.1 est supérieure à la version 4.5.

Cette stratégie de dénomination déroutante s'accompagne de déclarations de performances tout aussi déroutantes. OpenAI considère la GPT-4.1 comme une nette amélioration par rapport à la GPT-4o, notamment en ce qui concerne le codage et le suivi d'instructions complexes (vous pouvez consulter les tests complets sur le site d'OpenAI). La nouvelle famille de modèles offre également une fenêtre contextuelle massive de 1 million de jetons, soit environ quatre fois plus que la capacité de la GPT-4o. Il est à noter que, contrairement à la GPT-4o multimodale (où « o » signifiait « omni »), l'annonce de la famille GPT-4.1 ne mentionne pas les capacités d'entrée ou de sortie audio, ce qui suggère une concentration sur les entrées texte et image avec sortie texte, comme l'a fait remarquer l'expert en IA Simon Willison sur son blog.

Si l'on compare avec l'aperçu GPT-4.5, qui sera bientôt supprimé, la situation est beaucoup plus complexe. Alors que GPT-4.1 obtient de bien meilleurs résultats au test de codage SWE-bench Verified (54,6 % contre 38,0 % pour GPT-4.5) et génère des différences de code de manière plus fiable, les données de référence d'OpenAI révèlent que GPT-4.5 est encore plus performant dans les tests de connaissances académiques, le suivi d'instructions et plusieurs tâches liées à la vision.

(SWE-bench Verified est un benchmark industriel qui vise à évaluer la capacité des modèles d'IA à comprendre et à modifier les référentiels logiciels du monde réel pour corriger les bogues ou mettre en œuvre de nouvelles fonctionnalités, c'est-à-dire à mesurer l'utilité de l'IA pour les ingénieurs logiciels réels dans les environnements de production).

Cela soulève la question suivante : pourquoi retirer un modèle apparemment plus performant de l'API ? OpenAI explique que GPT-4.1 offre « des performances améliorées ou similaires sur de nombreuses capacités clés à un coût et une latence bien moindres ». En d'autres termes, GPT-4.1 atteint un point idéal : des performances suffisantes pour la plupart des cas d'utilisation de l'API, mais plus rapides et moins chères que l'aperçu GPT-4.5, plus gourmand en ressources. GPT-4.5 est très lent et très cher.

Source : OpenAI

Et vous ?

GPT-4.1 marque-t-il réellement un progrès ou une rationalisation marketing déguisée ? Pourquoi OpenAI saute-t-il en arrière dans la numérotation (de 4.5 à 4.1) tout en prétendant à une avancée ? Y a-t-il une volonté d'effacer une étape problématique dans l’évolution des modèles ?

La focalisation de GPT-4.1 sur le code signe-t-elle la fin du modèle généraliste tout-en-un ? OpenAI va-t-il désormais proposer des modèles spécialisés plutôt qu’un modèle universel ? Cela annonce-t-il un futur éclatement du GPT en versions sectorielles (éducation, médecine, droit, etc.) ?

OpenAI a-t-il suffisamment prouvé la fiabilité de GPT-4.1 pour remplacer GPT-4.5 dans les environnements critiques ? Les benchmarks comme SWE-Bench sont-ils représentatifs des cas réels rencontrés par les développeurs professionnels ?

La nouvelle fenêtre de contexte (1 million de tokens) est-elle réellement exploitable pour les développeurs ? Quelles sont les limites concrètes dans les environnements actuels ? Cette promesse de “long context” est-elle surtout une opération de com’ ?

Pourquoi GPT-4.5 est-il abandonné aussi vite ? Était-ce un échec technique ou un problème de coût/efficacité ?

Vous avez lu gratuitement 1 618 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 :

GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 : GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT

OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 :

GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT