Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos,

Les chercheurs peuvent s'inscrire pour le tester

Le 7 avril 2022 à 15:10, par Bruno

243PARTAGES

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos,
les chercheurs peuvent s'inscrire pour le tester

Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système original, qui produit des images représentant les descriptions écrites par les utilisateurs. Il comprend également de nouvelles fonctionnalités, comme l'édition d'une image existante. Comme pour les travaux précédents d'OpenAI, l'outil n'est pas directement mis à la disposition du public. Mais les chercheurs peuvent s'inscrire en ligne pour avoir un aperçu du système, et OpenAI espère le rendre disponible ultérieurement pour une utilisation dans des applications tierces.

Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé l'année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.

La nouvelle version, DALL-E 2, est censée être plus polyvalente et capable de générer des images à partir de légendes à des résolutions plus élevées. Elle est également dotée de nouvelles capacités. Il s'agissait d'un test limité mais fascinant de la capacité de l'IA à représenter visuellement des concepts, qu'il s'agisse de la représentation banale d'un mannequin en chemise de flanelle, d'une « girafe en tortue » ou de l'illustration d'un radis promenant un chien.

À l'époque, OpenAI a déclaré qu'elle continuerait à développer le système tout en examinant les dangers potentiels, tels que les préjugés dans la génération d'images ou la production de fausses informations. Elle tente de résoudre ces problèmes à l'aide de garanties techniques et d'une nouvelle politique de contenu, tout en réduisant sa charge de calcul et en poussant plus loin les capacités de base du modèle.

L'une des nouvelles fonctionnalités de DALL-E 2, l'inpainting, applique les capacités de conversion de texte en image de DALL-E à un niveau plus granulaire. Les utilisateurs peuvent partir d'une image existante, sélectionner une zone et demander au modèle de la modifier. Vous pouvez, par exemple, masquer un tableau sur le mur d'un salon et le remplacer par une autre photo, ou ajouter un vase de fleurs sur une table basse. Le modèle peut remplir (ou supprimer) des objets tout en tenant compte de détails tels que la direction des ombres dans une pièce.

Une autre fonctionnalité, les variations, est une sorte d'outil de recherche d'images qui n'existent pas. Les utilisateurs peuvent télécharger une image de départ, puis créer une série de variations similaires à celle-ci. Ils peuvent également mélanger deux images, générant ainsi des photos qui contiennent des éléments des deux. Les images générées mesurent 1 024 x 1 024 pixels, un bond en avant par rapport aux 256 x 256 pixels du modèle original.

DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.

Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain. OpenAI a itéré sur ce processus pour créer "unCLIP", une version inversée qui commence par la description et se dirige vers l'image. DALL-E 2 génère l'image à l'aide d'un processus appelé "diffusion", que Dhariwal décrit comme le fait de commencer par un "sac de points", puis de remplir un motif de plus en plus détaillé.

Le logiciel pourrait aider les gens à retoucher leurs photos, à créer des œuvres d'art ou à produire d'innombrables images de stock. « DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas à disposition dans notre API », a déclaré OpenAI mercredi. « Dans le cadre de nos efforts pour développer et déployer l'IA de manière responsable, nous étudions les limites et les capacités de DALL-E avec un groupe restreint d'utilisateurs. »

DALL-E 2 pourra être testé par des partenaires agréés, sous réserve de certaines conditions. Les utilisateurs n'ont pas le droit de télécharger ou de générer des images non classées G et « susceptibles de causer du tort », notamment tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou "des conspirations majeures ou des événements liés à des événements géopolitiques majeurs en cours". Ils doivent également divulguer le rôle de l'IA dans la génération des images, et ils ne peuvent pas servir les images générées à d'autres personnes par le biais d'une application ou d'un site web.

OpenAI espère toutefois l'ajouter ultérieurement aux outils API du groupe, ce qui lui permettrait d'alimenter des applications tierces. « Notre espoir est de poursuivre le processus par étapes, afin de pouvoir continuer à évaluer, à partir des retours que nous recevons, comment diffuser cette technologie en toute sécurité », explique Dhariwal.

Source : OpenAi

Et vous ?

Que pensez-vous de cette nouvelle version de DALL-E ?

Voir aussi :

OpenAI permet désormais aux développeurs de personnaliser son système de génération de texte GPT-3, pour créer des modèles adaptés au contenu spécifique de leurs applications et services

L'API d'OpenAI est désormais disponible sans liste d'attente, il apporte des modèles de la série Instruct qui sont spécialisés pour des réponses plus véridiques

L'IA Codex d'OpenAI fait ses débuts en programmation et peut déjà coder dans une dizaine de langages, l'IA pourra-t-elle bientôt décharger les développeurs de certaines tâches, voire les remplacer ?

OpenAI conçoit un algorithme basé sur l'IA qui permet à un robot d'imiter des tâches réalisées par des humains, dans un environnement virtuel

Vous avez lu gratuitement 46 810 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos,

Les chercheurs peuvent s'inscrire pour le tester

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos, Les chercheurs peuvent s'inscrire pour le tester

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos,

Les chercheurs peuvent s'inscrire pour le tester