DALL-E Mini a été inspiré par un outil de création d'images d'IA plus puissant appelé DALL-E. Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système original, qui produit des images représentant les descriptions écrites par les utilisateurs. Il comprend également de nouvelles fonctionnalités, comme l'édition d'une image existante.
Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé l'année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.
DALL-E est plus puissant mais n'est pas ouvertement disponible, par crainte qu'il ne soit utilisé à mauvais escient. La version DALL-E 2 est censée être plus polyvalente et capable de générer des images à partir de légendes à des résolutions plus élevées. Elle est également dotée de nouvelles capacités. Il s'agissait d'un test limité mais fascinant de la capacité de l'IA à représenter visuellement des concepts, qu'il s'agisse de la représentation banale d'un mannequin en chemise de flanelle, d'une « girafe en tortue » ou de l'illustration d'un radis promenant un chien.
Il est devenu courant que les percées de la recherche en IA soient rapidement reproduites ailleurs, souvent en quelques mois, et DALL-E n'a pas fait exception. Boris Dayma, consultant en apprentissage automatique basé à Houston, au Texas, affirme avoir été fasciné par le document de recherche original de DALL-E. Bien qu'OpenAI n'ait pas publié de code, il a pu assembler la première version de DALL-E Mini lors d'un hackathon organisé par Hugging Face et Google en juillet 2021.
La première version produisait des images de mauvaise qualité, souvent difficiles à reconnaître, mais Dayma a continué à l'améliorer depuis. La semaine dernière, il a rebaptisé son projet Craiyon, après qu'OpenAI lui a demandé de changer le nom pour éviter toute confusion avec le projet DALL-E original. Le nouveau site affiche des publicités, et Dayma prévoit également une version premium de son générateur d'images.
Le modèle d'IA de DALL-E Mini crée des images en s'appuyant sur des modèles statistiques glanés lors de l'analyse de quelque 30 millions d'images étiquetées, afin d'extraire les liens entre les mots et les pixels. Dayma a compilé ces données d'apprentissage à partir de plusieurs collections d'images publiques collectées sur le web, dont une publiée par OpenAI.
Générer une image à partir d'un texte
Que voulez-vous voir ?
Un fauteuil d'avocat qui s'envole dans l'espace
Le système peut commettre des erreurs, notamment parce qu'il ne comprend pas vraiment comment les objets doivent se comporter dans le monde physique. Les petites bribes de texte sont souvent ambiguës, et les modèles d'IA ne saisissent pas leur signification comme le font les gens. Pourtant, Dayma a été étonné par ce que les gens ont tiré de sa création au cours des dernières semaines. Mon message le plus créatif était « La tour Eiffel sur la lune », dit-il. « Maintenant, les gens font des choses folles et ça marche ».
Certaines de ces invites ont cependant entraîné DALL-E Mini dans des directions discutables. Le système n'a pas été formé au contenu explicite, et il est conçu pour bloquer certains mots-clés. Malgré cela, des utilisateurs ont partagé des images provenant d'invites incluant des crimes de guerre, des fusillades dans des écoles et l'attaque du World Trade Center.
La manipulation d'images par l'IA, y compris la falsification d'images de personnes réelles appelée "deepfakes", est devenue une préoccupation pour les chercheurs en IA, les législateurs et les organisations à but non lucratif qui luttent contre le harcèlement en ligne. Les progrès de l'apprentissage automatique pourraient permettre de nombreuses utilisations utiles de l'imagerie générée par l'IA, mais aussi des cas d'utilisation malveillante, comme la diffusion de mensonges ou de haine.
OpenAI n'a donné accès à DALL-E et DALL-E 2 qu'à des utilisateurs sélectionnés, notamment des artistes et des informaticiens à qui il est demandé de respecter des règles strictes, les chercheurs peuvent s'inscrire en ligne pour avoir un aperçu du système, et OpenAI espère le rendre disponible ultérieurement pour une utilisation dans des applications tierces. Une approche qui, selon la société, lui permettra « d'étendre les capacités et les limites de la technologie ».
D'autres entreprises construisent leurs propres outils de génération d'images à un rythme effréné. En mai dernier, Google a annoncé un système de recherche appelé Imagen, capable selon lui de générer des images d'un niveau de qualité similaire à celui de DALL-E 2 ; la semaine dernière, elle en a annoncé un autre, appelé Parti, qui utilise une approche technique différente. Aucun de ces systèmes n'est accessible au public.
En mai, Google a dévoile son IA génératrice d'images par le texte baptisée Imagen et affirme qu'elle est meilleure que DALL-E 2 d'OpenAI. « Nous présentons Imagen, un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage. Imagen s'appuie sur la puissance des modèles de langage à grands transformateurs pour comprendre le texte et s'appuie sur la force des modèles de diffusion dans la génération d'images haute fidélité ». Selon Google, Imagen n'est pas adapté à un usage public pour le moment. La société a déclaré qu'elle prévoyait de développer une nouvelle façon de comparer « les préjugés sociaux et culturels dans les travaux futurs » et de tester les futures itérations.
Don Allen Stevenson III, l'un des artistes ayant accès au DALL-E 2 d'OpenAI, plus puissant, l'utilise pour trouver des idées et accélérer la création de nouvelles œuvres d'art, notamment des contenus en réalité augmentée tels que des filtres Snapchat qui transforment une personne en homard de dessin animé. « J'ai l'impression d'apprendre une toute nouvelle façon de créer", dit-il. "Cela vous permet de prendre plus de risques avec vos idées et d'essayer des designs plus compliqués, car cela prend en charge de nombreuses itérations. »
Stevenson dit s'être heurté à des restrictions programmées par OpenAI pour empêcher la création de certains contenus. « Parfois, j'oublie qu'il y a des garde-fous, et il faut me le rappeler avec des avertissements de l'application » qui indiquent que son accès pourrait être révoqué. Mais il ne voit pas cela comme une limitation de sa créativité, car DALL-E 2 est encore un projet de recherche.
Delangue, de Hugging Face, estime que c'est une bonne chose que les créations de DALL-E Mini soient beaucoup plus grossières que celles de DALL-E 2, car leurs défauts montrent clairement que l'imagerie n'est pas réelle et a été générée par l'IA. Il affirme que cela a permis à DALL-E Mini d'aider les gens à se familiariser directement avec les nouvelles capacités de manipulation d'images de l'IA, qui ont été pour la plupart tenues à l'écart du public. « L'apprentissage automatique est en train de devenir la nouvelle façon par défaut de construire des technologies, mais il y a cette déconnexion avec les entreprises qui construisent ces outils derrière des portes fermées », dit-il.
Il pourrait devenir de plus en plus difficile de maîtriser certains de ces préjudices. Dayma, le créateur de DALL-E Mini, admet que ce n'est qu'une question de temps avant que des outils comme le sien, qui sont plus largement disponibles, soient également capables de créer des images plus photoréalistes. Mais il pense que les mèmes créés par l'IA qui ont circulé ces dernières semaines ont peut-être contribué à nous préparer à cette éventualité. « Vous savez, ça va arriver », dit Dayma. « Mais j'espère que DALL-E Mini fait prendre conscience aux gens que lorsqu'ils voient une image, ils doivent savoir qu'elle n'est pas forcément vraie ».
Alors que DALL-E 2 pourra être testé par des partenaires agréés, sous réserve de certaines conditions, les utilisateurs n'ont pas le droit de télécharger ou de générer des images « susceptibles de causer du tort », notamment tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou « des conspirations majeures ou des événements liés à des événements géopolitiques majeurs en cours ». Ils doivent également divulguer le rôle de l'IA dans la génération des images, et ils ne peuvent pas servir les images générées à d'autres personnes par le biais d'une application ou d'un site web.
Le flux constant de contenu de DALL-E Mini a également aidé l'entreprise à résoudre des problèmes techniques, les utilisateurs signalant des problèmes tels que des résultats sexuellement explicites ou des biais dans les résultats. Un système formé à partir d'images du web peut, par exemple, être plus enclin à montrer un genre plutôt qu'un autre dans des rôles particuliers, reflétant ainsi des préjugés sociaux profondément ancrés. Lorsqu'on demande à DALL-E Mini de représenter un "médecin", il montre des figures qui ressemblent à des hommes ; si on lui demande de dessiner une "infirmière", les images semblent montrer des femmes.
Sasha Luccioni, une chercheuse scientifique qui travaille sur l'éthique de l'IA chez Hugging Face, explique que l'afflux de mèmes de DALL-E Mini lui a fait prendre conscience de l'importance de développer des outils capables de détecter ou de mesurer les biais sociaux dans ces nouveaux types de modèles d'IA. « Je vois définitivement des façons dont ils peuvent être à la fois nuisibles et utiles », dit-elle.
Et vous ?
Utilisez-vous des générateurs d'images ?
Que pensez-vous de DALL-E Mini ?
Voyez-vous des abus potentiels ?
Que dites-vous de l'idée selon laquelle l'application de génération d'images virales, DALL-E Mini, est un divertissement absurde ?
Voir aussi :
Dall-E 2 : le générateur d'images IA développé par OpenAI peut produire une large gamme d'images à partir de quelques mots
Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos, les chercheurs peuvent s'inscrire pour le tester
Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte, pour un large éventail de concepts exprimables en langage naturel