OpenAI a déployé ce qu'elle décrit comme une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT. Les utilisateurs peuvent ainsi désormais utiliser GPT-4o pour générer des images au sein même de ChatGPT.Jusqu'à présent, la fonctionnalité était alimentée par un algorithme appelé DALL-E-3, la troisième itération d'un modèle texte-image qui a fait ses débuts en 2023. La version originale du modèle était une édition modifiée de GPT-3 adaptée aux tâches de rendu.
Dans le cadre de la mise à jour, OpenAI a remplacé l'outil de génération d'images intégré à ChatGPT en le faisant passer de DALL-E à GPT-4o. Ce dernier algorithme est un grand modèle de langage multimodal qui a été lancé en avril dernier. OpenAI affirme que cette mise à jour améliorera considérablement les compétences de ChatGPT en matière de conception graphique.
Le générateur d'images du chatbot peut désormais prendre en charge des tâches plus complexes qu'auparavant. Lors d'un test interne, OpenAI a demandé à ChatGPT de visualiser une expérience de physique réalisée par Isaac Newton. En réponse, le chatbot a généré une illustration détaillée accompagnée d'un texte explicatif.
ChatGPT peut personnaliser les images qu'il génère en fonction des instructions de l'utilisateur. Après avoir créé l'illustration de l'expérience de Newton, les ingénieurs d'OpenAI ont demandé au chatbot de superposer le dessin sur un cahier. Le chatbot a accompli avec succès cette tâche, qui impliquait à la fois de modifier l'angle de l'illustration et d'ajouter un arrière-plan complexe.
Selon OpenAI, les générateurs d'images IA concurrents éprouvent des difficultés avec les invites qui leur demandent de dessiner plus d'une poignée d'objets. L'entreprise affirme que GPT-4o peut dessiner avec précision jusqu'à 20 objets différents spécifiés par l'utilisateur. Cela inclut le texte, que le modèle génère de manière plus fiable que DALL-E-3.
Les utilisateurs peuvent éventuellement fournir à ChatGPT des images de référence. Un concepteur d'interface, par exemple, peut télécharger un modèle de menu déroulant et demander au chatbot d'y apporter des améliorations.
Un autre avantage du générateur d'images amélioré de ChatGPT est qu'il peut créer des objets avec des arrière-plans transparents. Un arrière-plan transparent permet de combiner plus facilement des éléments visuels entre eux. Cela simplifie les tâches telles que l'intégration d'un logo nouvellement créé dans l'interface d'une application existante.
OpenAI a entraîné GPT-4o en utilisant des données accessibles au public et des actifs sous licence de partenaires tels que Shutterstock Inc. « Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant non seulement comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres », ont écrit les membres de l'équipe d'OpenAI dans un billet de blog.
Après la phase de formation initiale, l'entreprise a utilisé une méthode appelée RLHF pour affiner la qualité des résultats de ChatGPT. Il s'agit d'une variante de l'apprentissage par renforcement, une approche standard de l'industrie pour développer des modèles d'IA.
Dans les projets d'apprentissage par renforcement, le processus de formation d'un modèle IA est coordonné par un second réseau de neurones. RLHF, l'apprentissage automatique utilisé par OpenAI pour construire GPT-4o, améliore ce deuxième réseau de neurones en s'appuyant sur les commentaires d'experts humains. Les améliorations apportées par les experts permettent d'accroître la qualité de l'IA en cours de formation.
Génération d'images utiles
Des premières peintures rupestres aux infographies modernes, l'homme a utilisé l'imagerie visuelle pour communiquer, persuader et analyser, et pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent évoquer des scènes surréalistes et époustouflantes, mais se heurtent à l'imagerie de base que les gens utilisent pour partager et créer des informations. Des logos aux diagrammes, les images peuvent véhiculer une signification précise lorsqu'elles sont complétées par des symboles qui renvoient à un langage et à une expérience partagés.
La génération d'images avec GPT-4o excelle dans le rendu précis du texte, le suivi précis des invites et l'exploitation de la base de connaissances inhérente à 4o et du contexte du chat, y compris la transformation des images téléchargées ou leur utilisation comme source d'inspiration visuelle. Selon OpenAI, « ces capacités facilitent la création de l'image que vous imaginez, vous aidant à communiquer plus efficacement par le biais de visuels et faisant de la génération d'images un outil pratique, précis et puissant. »
[CENTER][...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.