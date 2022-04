Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé l'année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.La nouvelle version, DALL-E 2, est censée être plus polyvalente et capable de générer des images à partir de légendes à des résolutions plus élevées. Elle est également dotée de nouvelles capacités. Il s'agissait d'un test limité mais fascinant de la capacité de l'IA à représenter visuellement des concepts, qu'il s'agisse de la représentation banale d'un mannequin en chemise de flanelle, d'une « girafe en tortue » ou de l'illustration d'un radis promenant un chien.À l'époque, OpenAI a déclaré qu'elle continuerait à développer le système tout en examinant les dangers potentiels, tels que les préjugés dans la génération d'images ou la production de fausses informations. Elle tente de résoudre ces problèmes à l'aide de garanties techniques et d'une nouvelle politique de contenu, tout en réduisant sa charge de calcul et en poussant plus loin les capacités de base du modèle.L'une des nouvelles fonctionnalités de DALL-E 2, l'inpainting, applique les capacités de conversion de texte en image de DALL-E à un niveau plus granulaire. Les utilisateurs peuvent partir d'une image existante, sélectionner une zone et demander au modèle de la modifier. Vous pouvez, par exemple, masquer un tableau sur le mur d'un salon et le remplacer par une autre photo, ou ajouter un vase de fleurs sur une table basse. Le modèle peut remplir (ou supprimer) des objets tout en tenant compte de détails tels que la direction des ombres dans une pièce.Une autre fonctionnalité, les variations, est une sorte d'outil de recherche d'images qui n'existent pas. Les utilisateurs peuvent télécharger une image de départ, puis créer une série de variations similaires à celle-ci. Ils peuvent également mélanger deux images, générant ainsi des photos qui contiennent des éléments des deux. Les images générées mesurent 1 024 x 1 024 pixels, un bond en avant par rapport aux 256 x 256 pixels du modèle original.DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain. OpenAI a itéré sur ce processus pour créer "unCLIP", une version inversée qui commence par la description et se dirige vers l'image. DALL-E 2 génère l'image à l'aide d'un processus appelé "diffusion", que Dhariwal décrit comme le fait de commencer par un "sac de points", puis de remplir un motif de plus en plus détaillé.Le logiciel pourrait aider les gens à retoucher leurs photos, à créer des œuvres d'art ou à produire d'innombrables images de stock. « DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas à disposition dans notre API », a déclaré OpenAI mercredi. « Dans le cadre de nos efforts pour développer et déployer l'IA de manière responsable, nous étudions les limites et les capacités de DALL-E avec un groupe restreint d'utilisateurs. »DALL-E 2 pourra être testé par des partenaires agréés, sous réserve de certaines conditions. Les utilisateurs n'ont pas le droit de télécharger ou de générer des imageset « susceptibles de causer du tort », notamment tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou "des conspirations majeures ou des événements liés à des événements géopolitiques majeurs en cours". Ils doivent également divulguer le rôle de l'IA dans la génération des images, et ils ne peuvent pas servir les images générées à d'autres personnes par le biais d'une application ou d'un site web.OpenAI espère toutefois l'ajouter ultérieurement aux outils API du groupe, ce qui lui permettrait d'alimenter des applications tierces. « Notre espoir est de poursuivre le processus par étapes, afin de pouvoir continuer à évaluer, à partir des retours que nous recevons, comment diffuser cette technologie en toute sécurité », explique Dhariwal.Source : OpenAi Que pensez-vous de cette nouvelle version de DALL-E ?