Le groupe de recherche en intelligence artificielle OpenAI a annoncé qu'elle a supprimé la liste d'attente pour son service de générateur d'images AI DALL-E. Cela signifie que tout le monde peut s'inscrire et l'utiliser. « À partir d'aujourd'hui, nous supprimons la liste d'attente pour la version bêta de DALL-E afin que les utilisateurs puissent s'inscrire et commencer à l'utiliser immédiatement. Plus de 1,5 million d'utilisateurs créent aujourd'hui activement plus de 2 millions d'images par jour avec DALL-E - des artistes et directeurs de la création aux auteurs et architectes - et plus de 100 000 utilisateurs partagent leurs créations et leurs commentaires dans notre communauté Discord », a écrit OpenAI dans un post publié le 28 septembre.
DALL-E est un modèle de synthèse d'images par apprentissage profond qui a été entraîné sur des centaines de millions d'images tirées d'Internet. Il utilise une technique appelée diffusion latente pour apprendre les associations entre les mots et les images. Ainsi, les utilisateurs de DALL-E peuvent saisir une description textuelle, appelée invite, et la voir restituée visuellement sous la forme d'une image de 1024×1024 pixels dans presque tous les styles artistiques.
Outre la génération d'images en texte, DALL-E comprend également une fonction appelée "Outpainting" qui permet de télécharger une image et d'en étendre les bords grâce à la synthèse d'image. Il est également possible de fusionner plusieurs photos en une seule en générant un pont visuel entre elles, en mélangeant les styles.
En avril de cette année, OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système original, qui produit des images représentant les descriptions écrites par les utilisateurs.
Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé l'année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.
La nouvelle version, DALL-E 2, est censée être plus polyvalente et capable de générer des images à partir de légendes à des résolutions plus élevées. Elle est également dotée de nouvelles capacités. Il s'agissait d'un test limité mais fascinant de la capacité de l'IA à représenter visuellement des concepts, qu'il s'agisse de la représentation banale d'un mannequin en chemise de flanelle, d'une « girafe en tortue » ou de l'illustration d'un radis promenant un chien.
Dall-E 2 permet désormais d'éditer des visages humains. Cette fonctionnalité était auparavant interdite en raison de craintes d'utilisation abusive, mais, dans une lettre envoyée aux millions d'utilisateurs de DALL-E, OpenAI dit qu'il ouvre l'accès après avoir amélioré ses filtres pour supprimer les images qui contiennent des « contenus sexuels, politiques et violents ».
La fonctionnalité permettra aux utilisateurs de modifier des images de différentes manières. Ils peuvent télécharger une photo de quelqu'un et générer des variations de l'image, par exemple, ou ils peuvent modifier des fonctionnalités spécifiques, comme changer les vêtements ou la coiffure de quelqu'un. La fonctionnalité sera sans aucun doute utile à de nombreux utilisateurs des industries créatives, des photographes aux cinéastes.
« Beaucoup d'entre vous nous ont dit que cela vous manquait d'utiliser DALL-E pour imaginer des tenues et des coiffures sur vous-mêmes et éditer les arrière-plans des photos de famille. Un chirurgien reconstructeur nous a dit qu'il utilisait DALL-E pour aider ses patients à visualiser les résultats. Et les cinéastes nous ont dit qu'ils voulaient pouvoir éditer des images de scènes avec des gens pour aider à accélérer leurs processus créatifs… Nous avons construit de nouvelles techniques de détection et de réponse pour arrêter les abus(...). Grâce aux améliorations de notre système de sécurité, DALL·E est désormais prêt à prendre en charge ces cas d'utilisation délicieux et importants, tout en minimisant le potentiel de dommages causés par les deepfakes », a déclaré OpenAI dans sa lettre aux clients annonçant la nouvelle.
Leurs commentaires ont inspiré des fonctionnalités telles que Outpainting, qui permet aux utilisateurs de poursuivre une image au-delà de ses limites d'origine et de créer des images plus grandes de n'importe quelle taille, et les collections, afin que les utilisateurs puissent créer de toutes nouvelles façons et accélérer leurs processus créatifs.
Les enseignements tirés de l'utilisation en conditions réelles ont permis à OpenAI d'améliorer les systèmes de sécurité, ce qui rend possible une plus grande disponibilité aujourd'hui. Au cours des derniers mois, OpenAI a rendu les filtres plus robustes pour rejeter les tentatives de génération de contenus sexuels, violents et autres qui violent la politique de contenu, et a mis au point de nouvelles techniques de détection et de réponse pour mettre fin aux abus.
Le mois dernier, nous avons présenté Stable Diffusion de Stability AI. Les poids modèles sont hébergés par Hugging Face une fois l'accès obtenu. Stability.ai voulaient construire une alternative à DALL-E 2, et ils aurat fini par faire beaucoup plus. Pour certains analystes, la diffusion stable incarne les meilleures caractéristiques du monde de l'art de l'IA : « il s'agit sans doute du meilleur modèle d'art de l'IA open source existant. C'est tout simplement du jamais vu et cela aura des conséquences énormes », déclare l’un d’entre eux.
Stable Diffusion est un modèle de diffusion latente texte-image. Grâce à un généreux don de calcul de Stability AI et au soutien de LAION, les chercheurs ont pu entraîner un modèle de diffusion latente sur des images 512x512 provenant d'un sous-ensemble de la base de données LAION-5B. Similaire à Imagen de Google, ce modèle utilise un encodeur de texte CLIP ViT-L/14 gelé pour conditionner le modèle à des invites textuelles. Avec son UNet de 860M et son encodeur de texte de 123M, le modèle est relativement léger et fonctionne sur un GPU avec au moins 10 Go de VRAM.
Contrairement à DALL-E mini et Disco Diffusion, qui sont des logiciels ouverts, Stable Diffusion peut créer d'incroyables œuvres d'art photoréalistes et artistiques qui n'ont rien à envier aux modèles d'OpenAI ou de Google. Certains affirment même qu'il s'agit du nouvel état de l'art parmi les « moteurs de recherche génératifs ».
Stability.ai serait né pour créer non pas seulement des modèles de recherche qui n'arrivent jamais dans les mains de la majorité, mais des outils avec des applications du monde réel ouvertes pour les utilisateurs. C'est un changement par rapport à d'autres entreprises technologiques comme OpenAI, qui garde jalousement les secrets de ses meilleurs systèmes (GPT-3 et DALL-E 2), ou Google qui n'a jamais eu l'intention de publier ses propres systèmes (PaLM, LaMDA, Imagen ou Parti) en tant que bêtas privés.
Le succès absolument viral de Craiyon, malgré sa qualité inférieure, a mis en évidence les lacunes de DALL-E en tant que bêta fermée. Les gens ne veulent pas voir comment les autres créent des œuvres d'art impressionnantes. Ils veulent le faire eux-mêmes. Stability.ai est allé encore plus loin, car cette version publique n'est pas seulement destinée à partager les poids et le code du modèle - qui, bien qu'ils soient essentiels au progrès de la science et de la technologie, n'intéressent pas la plupart des gens. La société a également facilité la création d'un site Web prêt à l'emploi, sans code, pour ceux d'entre nous qui ne veulent pas ou ne savent pas coder.
Source : DALL-E
Et vous ?
Que pensez-vous des générateurs d'images en général et de DALL-E en particulier ?
Que pensez-vous du fait le générateur d'images IA développé par OpenAI soit maintenant ouvert à tous ?
Voyez-vous des abus potentiels ?
Que pensez-vous de la concurrence ? Stable Diffusion de Stability AI par exemple.
Voir aussi :
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur
Dall-E 2 : le générateur d'images IA développé par OpenAI est disponible en bêta. Il peut produire une large gamme d'images à partir de quelques mots
Un ingénieur porte plainte contre l'office US des brevets pour avoir refusé d'accorder des brevets à son IA, sous le prétexte que seules les « personnes physiques » en ont le droit
Dall-E : le générateur d'images IA développé par OpenAI est maintenant ouvert à tous, en supprimant la liste d'attente,
OpenAI donne la possibilité à tout le monde pour s'inscrire et l'utiliser
Dall-E : le générateur d'images IA développé par OpenAI est maintenant ouvert à tous, en supprimant la liste d'attente,
OpenAI donne la possibilité à tout le monde pour s'inscrire et l'utiliser
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !