L'intelligence artificielle a souvent affronté les humains dans des combats créatifs. Il peut battre les grands maîtres aux échecs, créer des symphonies, produire des poèmes et, désormais, créer des œuvres d'art détaillées à partir d'une courte invite écrite. L'équipe d'OpenAI a récemment créé un logiciel puissant, capable de produire une large gamme d'images en quelques secondes, juste à partir d'une chaîne de mots qui lui est donnée. Ce programme est connu sous le nom de Dall-E 2 et a été conçu pour révolutionner la façon dont nous utilisons l'IA avec les images. Que fait le Dall-E 2 ?
En 2021, la société de développement de la recherche sur l'IA OpenAI a créé un programme connu sous le nom de «Dall-E» - un mélange des noms Salvador Dali et Wall-E. Ce logiciel a été capable de prendre une invite écrite et de créer une image générée par l'IA complètement unique. Par exemple, «*un renard dans un arbre*» ferait apparaître une photo d'un renard assis dans un arbre, ou l'invite «*astronaute avec un bagel à la main*» montrerait… eh bien, vous voyez où cela mène.
Bien que ce soit certainement impressionnant, les images étaient souvent floues, pas tout à fait précises et prenaient un certain temps à créer. Maintenant, OpenAI a apporté de vastes améliorations au logiciel, créant Dall-E 2 - une nouvelle itération puissante qui fonctionne à un niveau beaucoup plus élevé.
Outre quelques autres nouvelles fonctionnalités, la principale différence avec ce deuxième modèle est une énorme amélioration de la résolution de l'image, des latences plus faibles (le temps nécessaire à la création de l'image) et un algorithme plus intelligent pour créer les images.
Le logiciel ne se contente pas de créer une image dans un style unique, vous pouvez ajouter différentes techniques artistiques à votre demande, en entrant des styles de dessin, de peinture à l'huile, un modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte, ou même comme une affiche de film des années 1960.
« Dall-E est un assistant très utile qui amplifie ce qu'une personne peut normalement faire, mais cela dépend vraiment de la créativité de la personne qui l'utilise. Un artiste ou quelqu'un de plus créatif peut créer des choses vraiment intéressantes », explique Aditya Ramesh, l'un des ingénieurs principaux de Dall-E 2.
Un touche-à-tout
En plus de la capacité de la technologie à produire des images uniquement sur des invites textuelles, Dall-E 2 dispose de deux autres techniques intelligentes : l'inpainting (le nom donné à la technique de reconstruction d'images détériorées ou de remplissage des parties manquantes d'une image) et les variations. Ces deux applications fonctionnent de manière similaire au reste de Dall-E, juste avec une touche.
Avec l'inpainting, vous pouvez prendre une image existante et y ajouter de nouveaux éléments ou en modifier des parties. Si vous avez une image d'un salon, vous pouvez ajouter un nouveau tapis, un chien sur le canapé, changer le tableau au mur ou même faire apparaître un éléphant dans la pièce… parce que quelqu'un pourrait y penser, voyez vous.
à gauche, l'image originale, à droite l'édition Dall-E 2. Les chiffres 1, 2 et 3 donne un exemple d'illustration de placement d'un élément (en l'occurrence le flamant). Vous pouvez modifier sa position
Variations est un autre service qui nécessite une image existante. Insérez une photo, une illustration ou tout autre type d'image et l'outil de variation de Dall-E créera des centaines de ses propres versions. Vous pouvez lui donner une image d'un des télétubbies, et il la reproduira, créant des versions similaires. Une vieille peinture d'un samouraï créera des images similaires, vous pouvez même prendre une photo de certains graffitis que vous voyez et obtenir des résultats similaires.
Vous pouvez également utiliser cet outil pour combiner deux images en une seule. Mélangez un dragon et un corgi, ou un arc-en-ciel et un pot pour générer des pots avec de la couleur.
à gauche l'image originale, à droite, l'outil variation de Dall-E 2 appliqué sur cette image
DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.
Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.