OpenAI lance ChatGPT Images 2.0, positionnant son nouveau modèle d'image comme une évolution d'un outil de rendu vers ce que l'entreprise appelle un « partenaire de réflexion visuelle ». Ce « partenaire », qui a fait ses débuts, est un système capable de raisonner à travers des tâches visuelles complexes, de vérifier ses propres résultats et de générer jusqu’à huit images cohérentes à partir d’une seule instruction générative. Images 2.0 est le premier modèle d'image d'OpenAI doté de capacités de réflexion natives. Lorsqu'un modèle Reasoning ou Pro est sélectionné dans ChatGPT, le système peut rechercher des informations en temps réel sur le Web, produire plusieurs images distinctes à partir d'une seule requête et recouper ses propres résultats avant de les fournir.OpenAI est un organisme américain de recherche en intelligence artificielle (IA) composé d’une société à but lucratif d’intérêt public (PBC) et d’une fondation à but non lucratif, dont le siège se trouve à San Francisco. OpenAI a développé la famille de grands modèles de langage GPT, la série DALL-E de modèles de conversion texte-image et la série Sora de modèles de conversion texte-vidéo, qui ont influencé la recherche industrielle et les applications commerciales. Le lancement de ChatGPT en novembre 2022 est considéré comme ayant suscité un intérêt généralisé pour l'IA générative.
ChatGPT est un chatbot d'intelligence artificielle générative qui utilise le grand modèle de langage GPT pour générer du texte, de la parole et des images en réponse aux invites des utilisateurs. On lui attribue le mérite d'avoir accéléré le boom de l'IA, une période actuelle marquée par des investissements rapides et une attention publique accrue envers le domaine de l'intelligence artificielle (IA). OpenAI exploite ce service selon un modèle freemium. Les utilisateurs peuvent interagir avec ChatGPT par le biais de requêtes textuelles, audio et visuelles.
Récemment, OpenAI lance ChatGPT Images 2.0, positionnant son nouveau modèle d'image comme une évolution d'un outil de rendu vers ce que l'entreprise appelle un « partenaire de réflexion visuelle ». Ce « partenaire », qui a fait ses débuts, est un système capable de raisonner à travers des tâches visuelles complexes, de vérifier ses propres résultats et de générer jusqu’à huit images cohérentes à partir d’une seule invite. Le modèle, disponible via l’API sous le nom de gpt-image-2, est en cours de déploiement auprès de tous les utilisateurs de ChatGPT et Codex. Les fonctionnalités avancées nécessitant les capacités de réflexion du modèle sont réservées aux abonnés Plus, Pro et Business.
Images 2.0 est le premier modèle d'image d'OpenAI doté de capacités de réflexion natives. Lorsqu'un modèle Reasoning ou Pro est sélectionné dans ChatGPT, le système peut rechercher des informations en temps réel sur le Web, produire plusieurs images distinctes à partir d'une seule requête et recouper ses propres résultats avant de les fournir. Cela le distingue des générateurs d'images conventionnels, qui produisent un seul résultat par requête et ne disposent pas de boucle d'autocorrection.
Le modèle fonctionne selon deux modes distincts : Instant, pour une sortie rapide, et Thinking, qui adopte une approche plus lente et plus réfléchie — en raisonnant sur la structure d’une image avant de la générer. Le mode Thinking est spécialement conçu pour maintenir la cohérence des personnages et des objets sur plusieurs images, ouvrant ainsi la voie à des workflows pour le manga, le storyboard et la conception de scènes multiples, domaines dans lesquels les modèles précédents peinaient, explique la société.
« Lorsqu’un modèle Thinking ou Pro est sélectionné dans ChatGPT, Images 2.0 peut rechercher des informations en temps réel sur le Web, créer plusieurs images distinctes à partir d’une seule invite et vérifier ses propres résultats », a écrit OpenAI. « Avec le mode Thinking, le modèle peut prendre en charge une part encore plus importante du travail entre l’idée et l’image, en particulier lorsque la précision, l’actualité des informations, la cohérence et la cohésion visuelle sont primordiales. »
OpenAI décrit cette version comme une avancée majeure en matière de suivi des instructions, de placement d’objets et de rendu de texte dense. L’entreprise affirme que le modèle est capable de gérer des éléments complexes qui posent habituellement des problèmes aux générateurs d’images, tels que le texte de petite taille, l’iconographie, les éléments d’interface utilisateur et les compositions serrées, jusqu’à une résolution de 2K via l’API.
La prise en charge multilingue a également été considérablement étendue. Le modèle affiche des progrès significatifs dans le rendu des textes non latins, notamment en japonais, coréen, chinois, hindi et bengali. Les modèles d'image précédents pouvaient approximer les scripts non latins, mais produisaient souvent des résultats déformés ou incohérents dans les textes denses, a indiqué la société.
Grâce à des formats d'image flexibles — allant d'un rapport...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.