
Jusqu'à présent, la fonctionnalité était alimentée par un algorithme appelé DALL-E-3, la troisième itération d'un modèle texte-image qui a fait ses débuts en 2023. La version originale du modèle était une édition modifiée de GPT-3 adaptée aux tâches de rendu.
Dans le cadre de la mise à jour, OpenAI a remplacé l'outil de génération d'images intégré à ChatGPT en le faisant passer de DALL-E à GPT-4o. Ce dernier algorithme est un grand modèle de langage multimodal qui a été lancé en avril dernier. OpenAI affirme que cette mise à jour améliorera considérablement les compétences de ChatGPT en matière de conception graphique.
Le générateur d'images du chatbot peut désormais prendre en charge des tâches plus complexes qu'auparavant. Lors d'un test interne, OpenAI a demandé à ChatGPT de visualiser une expérience de physique réalisée par Isaac Newton. En réponse, le chatbot a généré une illustration détaillée accompagnée d'un texte explicatif.
ChatGPT peut personnaliser les images qu'il génère en fonction des instructions de l'utilisateur. Après avoir créé l'illustration de l'expérience de Newton, les ingénieurs d'OpenAI ont demandé au chatbot de superposer le dessin sur un cahier. Le chatbot a accompli avec succès cette tâche, qui impliquait à la fois de modifier l'angle de l'illustration et d'ajouter un arrière-plan complexe.
Selon OpenAI, les générateurs d'images IA concurrents éprouvent des difficultés avec les invites qui leur demandent de dessiner plus d'une poignée d'objets. L'entreprise affirme que GPT-4o peut dessiner avec précision jusqu'à 20 objets différents spécifiés par l'utilisateur. Cela inclut le texte, que le modèle génère de manière plus fiable que DALL-E-3.
Les utilisateurs peuvent éventuellement fournir à ChatGPT des images de référence. Un concepteur d'interface, par exemple, peut télécharger un modèle de menu déroulant et demander au chatbot d'y apporter des améliorations.
Un autre avantage du générateur d'images amélioré de ChatGPT est qu'il peut créer des objets avec des arrière-plans transparents. Un arrière-plan transparent permet de combiner plus facilement des éléments visuels entre eux. Cela simplifie les tâches telles que l'intégration d'un logo nouvellement créé dans l'interface d'une application existante.
OpenAI a entraîné GPT-4o en utilisant des données accessibles au public et des actifs sous licence de partenaires tels que Shutterstock Inc. « Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant non seulement comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres », ont écrit les membres de l'équipe d'OpenAI dans un billet de blog.
Après la phase de formation initiale, l'entreprise a utilisé une méthode appelée RLHF pour affiner la qualité des résultats de ChatGPT. Il s'agit d'une variante de l'apprentissage par renforcement, une approche standard de l'industrie pour développer des modèles d'IA.
Dans les projets d'apprentissage par renforcement, le processus de formation d'un modèle IA est coordonné par un second réseau de neurones. RLHF, l'apprentissage automatique utilisé par OpenAI pour construire GPT-4o, améliore ce deuxième réseau de neurones en s'appuyant sur les commentaires d'experts humains. Les améliorations apportées par les experts permettent d'accroître la qualité de l'IA en cours de formation.
Génération d'images utiles
Des premières peintures rupestres aux infographies modernes, l'homme a utilisé l'imagerie visuelle pour communiquer, persuader et analyser, et pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent évoquer des scènes surréalistes et époustouflantes, mais se heurtent à l'imagerie de base que les gens utilisent pour partager et créer des informations. Des logos aux diagrammes, les images peuvent véhiculer une signification précise lorsqu'elles sont complétées par des symboles qui renvoient à un langage et à une expérience partagés.
La génération d'images avec GPT-4o excelle dans le rendu précis du texte, le suivi précis des invites et l'exploitation de la base de connaissances inhérente à 4o et du contexte du chat, y compris la transformation des images téléchargées ou leur utilisation comme source d'inspiration visuelle. Selon OpenAI, « ces capacités facilitent la création de l'image que vous imaginez, vous aidant à communiquer plus efficacement par le biais de visuels et faisant de la génération d'images un outil pratique, précis et puissant. »
Des capacités améliorées
OpenAI a entraîné ses modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres. Le modèle résultant est combiné à un post-entraînement agressif et possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et tenant compte du contexte.
Rendu de texte
Selon l'entreprise, même si une image vaut mille mots, parfois la génération de quelques mots au bon endroit peut rehausser le sens d'une image. La capacité de 4o à mélanger des symboles précis avec des images transforme ainsi la génération d'images en un outil de communication visuelle.
Génération multi-tours
La génération d'images est désormais native dans GPT-4o, les utilisateurs peuvent affiner les images par le biais d'une conversation naturelle. GPT-4o peut s'appuyer sur des images et du texte dans le contexte d'un chat, assurant ainsi la cohérence de l'ensemble. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers de multiples itérations au fur et à mesure que vous l'affinez et l'expérimentez.
Suivi des instructions
La génération d'images de GPT-4o suit des instructions détaillées avec une attention particulière. Alors que d'autres systèmes ont des difficultés avec environ 5 à 8 objets, GPT-4o peut gérer jusqu'à 10-20 objets différents. Le lien plus étroit entre les objets et leurs traits et relations permet un meilleur contrôle.
Apprentissage en contexte
GPT-4o peut analyser et apprendre à partir d'images téléchargées par l'utilisateur, en intégrant de manière transparente leurs détails dans son contexte afin d'informer la génération d'images.
Connaissance du monde
La génération d'images natives permet à 4o de relier ses connaissances entre le texte et les images, ce qui se traduit par un modèle plus intelligent et plus efficace.
Photoréalisme et style
La formation sur des images reflétant une grande variété de styles d'images permet au modèle de créer ou de transformer des images de manière convaincante.
Limites
Le modèle d'OpenAI n'est pas parfait. L'entreprise est consciente des nombreuses limites actuelles et précise qu'elle s'efforcera de les résoudre en améliorant le modèle après le lancement initial.
Sécurité
Conformément à sa spécification de modèle, OpenAI a indiqué que son objectif vise à maximiser la liberté de création en soutenant des cas d'utilisation précieux tels que le développement de jeux, l'exploration historique et l'éducation, tout en maintenant des normes de sécurité strictes. Dans le même temps, l'entreprise précise qu'il est toujours aussi important de bloquer les demandes qui violent ces normes.
Vous trouverez ci-dessous des évaluations de domaines de risque supplémentaires pour lesquels OpenAI travaille afin de permettre un contenu sûr et très utile et de soutenir une expression créative plus large pour les utilisateurs.
Provenance via C2PA et recherche interne réversible
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifient une image comme provenant de GPT-4o, afin d'assurer la transparence. OpenAI a...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.