OpenAI lance ChatGPT Images 2.0 et le nouveau modèle gpt-image-2 offrant un raisonnement natif, une résolution 2K et une cohérence multi-images, ChatGPT « réfléchit » désormais avant de dessinerOpenAI lance ChatGPT Images 2.0, positionnant son nouveau modèle d'image comme une évolution d'un outil de rendu vers ce que l'entreprise appelle un « partenaire de réflexion visuelle ». Ce « partenaire », qui a fait ses débuts, est un système capable de raisonner à travers des tâches visuelles complexes, de vérifier ses propres résultats et de générer jusqu’à huit images cohérentes à partir d’une seule instruction générative. Images 2.0 est le premier modèle d'image d'OpenAI doté de capacités de réflexion natives. Lorsqu'un modèle Reasoning ou Pro est sélectionné dans ChatGPT, le système peut rechercher des informations en temps réel sur le Web, produire plusieurs images distinctes à partir d'une seule requête et recouper ses propres résultats avant de les fournir.
OpenAI est un organisme américain de recherche en intelligence artificielle (IA) composé d’une société à but lucratif d’intérêt public (PBC) et d’une fondation à but non lucratif, dont le siège se trouve à San Francisco. OpenAI a développé la famille de grands modèles de langage GPT, la série DALL-E de modèles de conversion texte-image et la série Sora de modèles de conversion texte-vidéo, qui ont influencé la recherche industrielle et les applications commerciales. Le lancement de ChatGPT en novembre 2022 est considéré comme ayant suscité un intérêt généralisé pour l'IA générative.
ChatGPT est un chatbot d'intelligence artificielle générative qui utilise le grand modèle de langage GPT pour générer du texte, de la parole et des images en réponse aux invites des utilisateurs. On lui attribue le mérite d'avoir accéléré le boom de l'IA, une période actuelle marquée par des investissements rapides et une attention publique accrue envers le domaine de l'intelligence artificielle (IA). OpenAI exploite ce service selon un modèle freemium. Les utilisateurs peuvent interagir avec ChatGPT par le biais de requêtes textuelles, audio et visuelles.
Récemment, OpenAI lance ChatGPT Images 2.0, positionnant son nouveau modèle d'image comme une évolution d'un outil de rendu vers ce que l'entreprise appelle un « partenaire de réflexion visuelle ». Ce « partenaire », qui a fait ses débuts, est un système capable de raisonner à travers des tâches visuelles complexes, de vérifier ses propres résultats et de générer jusqu’à huit images cohérentes à partir d’une seule invite. Le modèle, disponible via l’API sous le nom de gpt-image-2, est en cours de déploiement auprès de tous les utilisateurs de ChatGPT et Codex. Les fonctionnalités avancées nécessitant les capacités de réflexion du modèle sont réservées aux abonnés Plus, Pro et Business.
Images 2.0 est le premier modèle d'image d'OpenAI doté de capacités de réflexion natives. Lorsqu'un modèle Reasoning ou Pro est sélectionné dans ChatGPT, le système peut rechercher des informations en temps réel sur le Web, produire plusieurs images distinctes à partir d'une seule requête et recouper ses propres résultats avant de les fournir. Cela le distingue des générateurs d'images conventionnels, qui produisent un seul résultat par requête et ne disposent pas de boucle d'autocorrection.
Le modèle fonctionne selon deux modes distincts : Instant, pour une sortie rapide, et Thinking, qui adopte une approche plus lente et plus réfléchie — en raisonnant sur la structure d’une image avant de la générer. Le mode Thinking est spécialement conçu pour maintenir la cohérence des personnages et des objets sur plusieurs images, ouvrant ainsi la voie à des workflows pour le manga, le storyboard et la conception de scènes multiples, domaines dans lesquels les modèles précédents peinaient, explique la société.
« Lorsqu’un modèle Thinking ou Pro est sélectionné dans ChatGPT, Images 2.0 peut rechercher des informations en temps réel sur le Web, créer plusieurs images distinctes à partir d’une seule invite et vérifier ses propres résultats », a écrit OpenAI. « Avec le mode Thinking, le modèle peut prendre en charge une part encore plus importante du travail entre l’idée et l’image, en particulier lorsque la précision, l’actualité des informations, la cohérence et la cohésion visuelle sont primordiales. »
OpenAI décrit cette version comme une avancée majeure en matière de suivi des instructions, de placement d’objets et de rendu de texte dense. L’entreprise affirme que le modèle est capable de gérer des éléments complexes qui posent habituellement des problèmes aux générateurs d’images, tels que le texte de petite taille, l’iconographie, les éléments d’interface utilisateur et les compositions serrées, jusqu’à une résolution de 2K via l’API.
La prise en charge multilingue a également été considérablement étendue. Le modèle affiche des progrès significatifs dans le rendu des textes non latins, notamment en japonais, coréen, chinois, hindi et bengali. Les modèles d'image précédents pouvaient approximer les scripts non latins, mais produisaient souvent des résultats déformés ou incohérents dans les textes denses, a indiqué la société.
Grâce à des formats d'image flexibles — allant d'un rapport largeur/hauteur de 3:1 à 1:3 —, les résultats peuvent être générés prêts à l'emploi pour des bannières, des écrans mobiles, des affiches et des visuels destinés aux réseaux sociaux, sans nécessiter de post-traitement.
Ce lancement intervient alors que la pression concurrentielle dans le domaine de la génération d'images s'est intensifiée. Au classement LM Arena des modèles de conversion texte-image début avril, le modèle Gemini de Google occupait la première place, suivi du gpt-image-1.5 d'OpenAI en deuxième position. DALL-E 2 et DALL-E 3 seront retirés le 12 mai, rendant nécessaire, tant sur le plan commercial que stratégique, un remplacement de nouvelle génération.
La date limite de connaissances du modèle est fixée à décembre 2025, ce qui, selon OpenAI, permet d’obtenir des résultats plus précis et plus pertinents sur le plan contextuel pour les explications, les graphiques éducatifs et les résumés visuels, où l’exactitude importe autant que l’esthétique.
Images 2.0 est également disponible au sein de Codex, l’environnement de codage d’OpenAI, permettant la création visuelle dans le même espace de travail que celui utilisé pour le développement d’applications, les présentations et autres livrables. Les utilisateurs peuvent générer des directives d'interface utilisateur et des prototypes, comparer les options et intégrer les meilleurs résultats dans des produits finis sans changer d'outil. Les utilisateurs de Codex peuvent accéder à la génération d'images via leur abonnement ChatGPT existant, sans clé API distincte.
Les développeurs peuvent accéder à gpt-image-2 via l'API standard. Les tarifs varient en fonction de la qualité et de la résolution des résultats. Les résultats supérieurs à 2K sont disponibles dans la version bêta de l'API, mais peuvent produire des résultats inégaux dans certains cas. Les premiers utilisateurs en entreprise ont remarqué que le modèle va au-delà de la simple exécution de commandes. « Le modèle ne se contentait pas de générer des images. Il interprétait les briefs, comprenait les audiences et prenait des décisions créatives en coulisses », a déclaré Dwayne Koh, stratège créatif chez Canva, dans un communiqué fourni par OpenAI.
OpenAI reconnaît que le modèle rencontre encore des difficultés avec les tâches nécessitant un modèle cohérent du monde physique — guides d’origami, cubes de Rubik, objets sur des surfaces inversées ou inclinées. Les détails visuels très fins ou répétitifs, tels que les grains de sable, peuvent encore dépasser les limites de fidélité du modèle. Les étiquettes et les schémas de pièces peuvent nécessiter une vérification manuelle. L’entreprise décrit ces aspects comme « des défis importants pour les travaux futurs ».
Les premiers utilisateurs ont signalé un autre problème pratique : l’édition itérative se heurte à des rendements décroissants. Ethan Mollick, professeur à Wharton et chercheur en IA, a noté que si les images sont de bonne qualité, le modèle présente ce qu’il appelle le « problème typique d’ImageGen » : les modifications fonctionnent bien pendant un ou deux cycles, puis les progrès s’enlisent. Sa solution : glisser l’image dans une nouvelle conversation pour réinitialiser le contexte.
OpenAI considère la génération d'images comme une couche d'interface centrale plutôt que comme une fonctionnalité autonome. L'entreprise semble miser sur les images comme son prochain domaine de compétitivité, certains signes indiquant que la génération d'images est en train de devenir un mode principal d'interaction avec les systèmes d'IA, et non plus une simple fonctionnalité supplémentaire.
Voici un extrait de l'annonce d'OpenAI :
Présentation de ChatGPT Images 2.0
Les images sont un langage, pas une simple décoration. Une bonne image remplit la même fonction qu’une bonne phrase : elle sélectionne, organise et révèle. Elle peut expliquer un mécanisme, créer une ambiance, tester une idée ou étayer un argument.
Il y a un an, nous avons lancé ChatGPT Images, démontrant que les images créées par l’IA peuvent être à la fois belles et utiles. ChatGPT Images 2.0 constitue la prochaine étape : un modèle de pointe capable d’accomplir des tâches visuelles complexes et de produire des visuels précis et immédiatement utilisables.
Ce modèle représente une avancée majeure en matière de suivi des instructions détaillées, de placement et de mise en relation précis des objets, ainsi que de rendu de textes denses, avec la capacité de générer des images dans différents formats. Son sens de la composition et son goût visuel font que les résultats semblent moins générés par l'IA et davantage conçus de manière intentionnelle. Il est précis dans toutes les langues et utilise ses connaissances visuelles et du monde élargies pour combler les lacunes à votre place, ce qui vous permet d'obtenir des images plus intelligentes avec moins de consignes.
Afin d'étendre les capacités du modèle aux tâches les plus complexes, Images 2.0 est notre premier modèle d'image doté de capacités de réflexion. Lorsqu’un modèle « thinking » ou « pro » est sélectionné dans ChatGPT, Images 2.0 peut rechercher des informations en temps réel sur le Web, créer plusieurs images distinctes à partir d’une seule instruction et vérifier ses propres résultats. Grâce à la réflexion, le modèle peut prendre en charge une part encore plus importante du travail entre l’idée et l’image, en particulier lorsque la précision, l’actualité des informations, la cohérence et la cohésion visuelle sont primordiales.
Alliant l'intelligence des modèles de raisonnement d'OpenAI à une compréhension approfondie du monde visuel, ce modèle fait passer la génération d'images du simple rendu à la conception stratégique, d'un outil à un système visuel, aidant ainsi les utilisateurs à transformer leurs idées en résultats qu'ils peuvent comprendre, partager, utiliser pour enseigner et sur lesquels s'appuyer. Il est disponible dès aujourd'hui pour tous les utilisateurs de ChatGPT, Codex et de l'API.
Source : Annonce d'OpenAI
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?Voir aussi :
OpenAI lance GPT Image 1.5, son dernier modèle IA de génération d'images, pour rivaliser avec Gemini Nano Banana de Google, offrant des vitesses de génération d'images jusqu'à quatre fois plus rapides
Anthropic lance Claude Design, pour créer des designs, des prototypes, des diapositives, des documents d'une page et d'autres supports visuels à l'aide de Claude
Google rend son générateur d'images par IA Nano Banana 2 gratuit dans tout son écosystème, proposant une génération d'images par IA gratuite et de haute qualité avec une cohérence améliorée
Vous avez lu gratuitement 7 027 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.