Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte

Pour un large éventail de concepts exprimables en langage naturel

Le 11 janvier 2021 à 12:06, par Bill Fassinou

229PARTAGES

OpenAI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte
pour un large éventail de concepts exprimables en langage naturel

La société d'intelligence artificielle OpenAI développe des modèles qui améliorent la vision par ordinateur et d'autres cas d'utilisation de l'IA. Après la sortie de GPT-3, son modèle de traitement du langage naturel, en mai dernier, OpenAI annonce ce mois DALL-E, un nouveau modèle d'IA qui dessine des images à partir de textes ou, si vous préférez, un réseau de neurones qui crée des images à partir de légendes de texte. Avec environ 12 milliards de paramètres, DALL-E est basé sur GPT-3 et est capable de créer des images réalistes d'animaux, d'objets ou de scènes.

Qu'est-ce que DALL-E et quelles sont ses caractéristiques et potentialités ?

GPT-3 (Pre-training Transformer 3) est un modèle de traitement du langage naturel développé par OpenAI. Il a été annoncé en mai 2020 et ouvert aux utilisateurs via une API en juillet. Il est actuellement le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. GPT-3 a montré que le langage peut être utilisé pour ordonner à un grand réseau de neurones d'effectuer diverses tâches de génération de texte. Le modèle GPT a montré que le même type de réseau neuronal peut également être utilisé pour générer des images de haute précision, d'où le lancement de DALL-E.

DALL-E, annoncé il y a quelques jours, est une version de GPT-3 avec 12 milliards de paramètres, formée pour générer des images à partir de descriptions de texte, en utilisant un ensemble de données de paires texte-image. En effet, comme GPT-3, DALL-E est un modèle de langage de transformation. Il reçoit à la fois le texte et l'image sous la forme d'un flux de données unique contenant jusqu'à 1280 jetons, et est entraîné en utilisant le maximum de probabilité pour générer tous les jetons, les uns après les autres. Cette procédure d'apprentissage permet dans un premier temps à DALL-E de générer une image à partir de zéro.

Ensuite, elle lui permet aussi de régénérer toute région rectangulaire d'une image existante qui s'étend jusqu'au coin inférieur droit, d'une manière qui est cohérente avec l'invite textuelle. Il peut également dessiner des concepts aléatoires et absurdes et imaginer des objets qui n'existent probablement pas, comme "l'illustration d'un bébé radis daikon dans un tutu qui promène un chien". Il y a toutes sortes de combinaisons bizarres avec lesquelles vous pouvez jouer en cliquant sur les différentes options du menu déroulant pour choisir des mots individuels dans l'invite de texte des exemples sur le blogue d'OpenAI.

Le laboratoire de recherche en intelligence artificielle reste pour l'instant silencieux sur la plupart des détails techniques de DALL-E, et a déclaré qu'il prévoyait d'en révéler davantage dans un prochain article universitaire. En outre, bien que DALL-E n'en est qu'à ses débuts, certains pensent qu'il a le potentiel de perturber les industries créatives. Si un outil comme DALL-E était disponible dans le commerce, à quoi ressemblerait l'avenir pour les designers, les illustrateurs, les artistes et les photographes si une machine pouvait faire le même travail plus rapidement ?

OpenAI est conscient de l'impact que DALL-E pourrait avoir sur l'économie mondiale et promet de faire de plus profondes analyses à l'avenir avant de publier un tel modèle. « Nous reconnaissons que le travail impliquant des modèles générateurs a le potentiel d'avoir des impacts sociétaux importants et larges », a déclaré OpenAI. À l'avenir, nous prévoyons d'analyser comment des modèles comme DALL-E sont liés à des questions sociétales, dont l'impact économique sur certains processus de travail et professions, le potentiel de biais dans les résultats des modèles, et les défis éthiques à plus long terme qu'implique cette technologie ».

DALL-E d'OpenAI ne signifie-t-il pas la mort de l'art humain pour toujours ?

Luba Elliott, conservatrice et chercheuse à Creative AI, un laboratoire qui se concentre sur l'intersection de l'IA et de la créativité, a déclaré à The Register que : « si DALL-E pourrait certainement avoir son utilité en tant que produit commercial, il y aurait toujours de la place pour l'art créé par l'homme ». « À condition qu'il puisse générer des images très réalistes sur toute la ligne, il pourrait concurrencer Shutterstock ou Getty Images pour certains cas d'utilisation, en fonction bien sûr du coût par image et de la facilité de génération », a-t-elle commencé par expliquer.

« Ces cas d'utilisation pourraient inclure des images pour des articles et des billets de blogue, où l'accent est mis sur l'écriture et où l'image est là en comme remplissage de contenu. En ce qui concerne les photographes et les artistes, cela dépend du type de travail qu'ils font. Les illustrateurs et les photographes de stock pourraient bien perdre du travail au profit de tels outils, mais nous sommes encore loin de remplacer les photographes d'art et les artistes par un style et une vision créative distincts. En effet, à ce stade, les machines peinent à la fois à trouver et à exécuter des idées vraiment nouvelles », a-t-elle ajouté.

Selon elle, la production des machines est souvent fortement basée sur des données de formation du passé et devient intéressante lorsqu'un artiste humain la façonne et lui donne un sens. Pour rappel, Shutterstock est un microstock qui offre des photographies et des clips sans redevance, mais soumis aux termes de l'une des deux licences proposées par la société. Chaque photographie proposée peut être obtenue par abonnement limité ou sur demande. De son côté, Getty Images est une agence de photographie et une banque d'images américaine.

Les deux entités n'ont pas commenté le sujet. Sofia Crespo et Feileacan McCormick, artistes numériques qui travaillent dans un studio appelé Entangled Others, sont d'accord avec ce que dit Luba Elliott. Ils ont estimé que les entreprises qui vendent des images de stock seraient probablement plus touchées que les photographes et les illustrateurs eux-mêmes. Ils pensent aussi que DALL-E n'est pas encore assez bon pour remplacer les vraies images. Ses créations sont simplistes et la qualité fluctue en fonction de la formulation de l'invite de texte.

Représentation de plusieurs objets et les limites actuelles de DALL-E

Dans sa présentation de DALL-E, OpenAI a noté que le contrôle simultané de plusieurs objets, de leurs attributs et de leurs relations spatiales représente un nouveau défi. Prenons par exemple l'expression suivante : "un hérisson portant un chapeau rouge, des gants jaunes, une chemise bleue et un pantalon vert". Pour interpréter correctement cette phrase, DALL-E doit non seulement composer correctement chaque vêtement avec l'animal, mais aussi former les associations (chapeau, rouge), (gants, jaune), (chemise, bleu), et (pantalon, vert) sans les mélanger.

Le laboratoire d'IA a testé la capacité de DALL-E à le faire pour le positionnement relatif, l'empilage des objets et le contrôle des attributs multiples. Il a constaté que, bien que DALL-E offre un certain niveau de contrôle sur les attributs et les positions d'un petit nombre d'objets, le taux de réussite peut dépendre de la façon dont la légende est formulée. À mesure que de nouveaux objets sont introduits, DALL-E a tendance à confondre les associations entre les objets et leurs couleurs, et le taux de réussite diminue fortement. OpenAI note également que DALL-E est fragile en ce qui concerne la reformulation de la légende dans ces scénarios.

Les chercheurs d'OpenAI ont expliqué que les légendes alternatives, sémantiquement équivalentes, ne donnent souvent pas d'interprétations correctes. En gros, si le texte saisi décrit trop d'objets ou est particulièrement verbeux, il peut déstabiliser la machine et lui faire générer des images incorrectes. Voici un exemple (image précédente) qui demande explicitement une image qui contient trois cubes : un rouge en haut, un vert au milieu et un bleu en bas. Le modèle a du mal à comprendre et donne de multiples interprétations erronées : ses images contiennent le mauvais nombre de cubes, et ils sont souvent empilés dans le mauvais ordre.

Parmi les autres cas d'utilisation de DALL-E, OpenAI note que DALL-E permet également de contrôler le point de vue d'une scène et le style 3D dans lequel une scène est rendue. Pour aller plus loin, le laboratoire a testé la capacité de DALL-E à dessiner de manière répétée la tête d'une figure bien connue à chaque angle d'une séquence d'angles équidistants, et a constaté que l'on peut récupérer une animation fluide de la tête en rotation. Dans sa note de présentation, OpenAI a donné d'autres explications sur de nombreux autres cas d'utilisation de sa nouvelle technologie DALL-E.

Questions de droit d'auteur et préjugés liés au modèle DALL-E

Selon les critiques de l'industrie, si un produit comme DALL-E devait devenir un outil commercial, il y aurait des problèmes supplémentaires en plus de la diminution des possibilités d'emploi pour les photographes, les dessinateurs de bandes dessinées, etc. Les modèles générateurs massifs sont enclins à mémoriser leurs données de formation. Plus le réseau neuronal est grand, plus il faut de données pour le former et plus il mémorise. En effet, lorsque GPT-3 a été introduit en mai dernier, il a été dit que le modèle constituait à la fois une percée pour l'IA et une menace pour certains emplois et pourrait favoriser la prolifération des deepfakes.

Un groupe de chercheurs dirigé par l'université de Berkeley a découvert qu'en utilisant GPT-2, la version plus petite de GPT-3 avec moins de paramètres que DALL-E, ils étaient capables de récupérer des choses comme des discours, des titres de journaux, des centaines de chiffres du nombre PI, des versets de la Bible et du Coran, et même des lignes de code simplement en alimentant le modèle avec des phrases extraites d'Internet. Le modèle est très efficace pour rappeler des informations : en cas d'invite, il remplit les blancs avec ce qu'il a déjà vu.

Comme DALL-E est du même type, les images qu'il génère sont également un mélange de ce qu'il a vu sur Internet. Parfois, il créera probablement quelque chose qui ressemble étrangement à un dessin ou à une photographie existants capturés par un véritable artiste. « Le principal problème éthique de DALL-E est le blanchiment des droits d'auteur », a expliqué Alex Champandard, cofondateur de Creative AI. « Il est formé à partir d'un large ensemble de données extraites d'Internet sans aucune attribution. Il a été démontré que les modèles de langage GPT reproduisent leur contenu de formation mot pour mot, de sorte que la situation juridique ici, par exemple d'utilisation équitable, n'est pas claire jusqu'à ce qu'elle soit testée devant le tribunal ».

Par ailleurs, les critiques estiment également qu'un autre problème flagrant qui affecte tous les modèles d'IA auquel DALL-E n'échappera pas est celui de la partialité. « Et si quelqu'un l'utilisait pour produire des images offensantes, racistes ou obscènes ? Et si ces types d'images sont générés par erreur ? Tant qu'il y a des gens dans la boucle pour filtrer ces images, c'est bon, mais cela va être un problème si DALL-E devient un outil automatisé autonome », a déclaré Champandard. Les inquiétudes restent spéculatives pour l'instant, à moins que les développeurs ne créent des versions imitées qui soient très efficaces et largement disponibles.

Selon elles, il n'est pas trop fou de croire que quelque chose comme DALL-E finira par être commercialisé. Après tout, Microsoft détient les droits exclusifs de la licence de la technologie GPT-3 d'OpenAI. L'entreprise a signé un partenariat avec OpenAI en septembre 2020 afin d'obtenir une licence exclusive pour le modèle de langage GPT-3, une licence qui lui permet d'utiliser GPT-3 dans ses produits et services. D'après ces dernières, il est possible que Redmond utilise le modèle comme outil pour mettre à jour les clips et faire des présentations PowerPoint ou des documents Word.

Source : Présentation de DALL-E

Et vous ?

Que pensez-vous du modèle de langage DALL-E ?

Croyez-vous que DALL-E constitue une menace pour les banques d'images ?

DALL-E peut-il servir aux photographes et aux artistes ou va-t-il nuire à leur travail ?

Voir aussi

Microsoft signe un partenariat avec OpenAI afin d'obtenir une licence exclusive pour le modèle de langage GPT-3. Cette licence permet à Microsoft d'utiliser GPT-3 dans ses produits et services

Open AI propose en bêta privée son modèle de traitement du langage naturel GPT-3, ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps

OpenAI a publié l'IA de génération de texte qu'il disait trop dangereuse pour être divulguée, mais le modèle n'est pas encore parfait

Microsoft vient de construire un supercalculateur de classe mondiale exclusivement pour OpenAI, afin de former de très grands modèles d'intelligence artificielle

Une loi de Moore pour l'intelligence artificielle ? Selon OpenAI, les algorithmes d'IA suivent une courbe d'évolution qui pourrait être décrite comme l'évolution prévue par la loi de Moore

Vous avez lu gratuitement 381 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte

Pour un large éventail de concepts exprimables en langage naturel

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte Pour un large éventail de concepts exprimables en langage naturel

Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte

Pour un large éventail de concepts exprimables en langage naturel