IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps,
Contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Le , par Bruno

180PARTAGES

4  0 
Stability AI annonce la première étape de Stable Diffusion aux chercheurs. Les poids modèles sont hébergés par Hugging Face une fois l'accès obtenu. Stability.ai voulait construire une alternative à DALL-E 2, et ils auraient fini par faire beaucoup plus. Pour certains analystes, Stable Diffusion incarne les meilleures caractéristiques du monde de l'art de l'IA : « il s'agit sans doute du meilleur modèle d'art de l'IA open source existant. C'est tout simplement du jamais vu et cela aura des conséquences énormes », déclare l’un d’entre eux.

Stable Diffusion est un modèle de diffusion latente texte-image. Grâce à un généreux don de calcul de Stability AI et au soutien de LAION, les chercheurs ont pu entraîner un modèle de diffusion latente sur des images 512x512 provenant d'un sous-ensemble de la base de données LAION-5B. Similaire à Imagen de Google, ce modèle utilise un encodeur de texte CLIP ViT-L/14 gelé pour conditionner le modèle à des invites textuelles. Avec son UNet de 860M et son encodeur de texte de 123M, le modèle est relativement léger et fonctionne sur un GPU avec au moins 10 Go de VRAM.


Notons qu’Imagen de Google est un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage. Imagen s'appuie sur la puissance des grands modèles de langage transformateurs pour la compréhension du texte et s'appuie sur la force des modèles de diffusion pour la génération d'images haute-fidélité.

Sa principale découverte est que les grands modèles de langage génériques (par exemple T5), pré-entraînés sur des corpus de texte uniquement, sont étonnamment efficaces pour coder le texte pour la synthèse d'images : l'augmentation de la taille du modèle de langage dans Imagen améliore à la fois la fidélité de l'échantillon et l'alignement image-texte beaucoup plus que l'augmentation de la taille du modèle de diffusion d'image.

Imagen obtient un nouveau score FID de pointe de 7,27 sur le jeu de données COCO, sans jamais s'entraîner sur COCO, et les évaluateurs humains trouvent que les échantillons d'Imagen sont équivalents aux données COCO elles-mêmes en matière d'alignement image-texte. Avec Stable Diffusion, les poids sont disponibles par l'intermédiaire de l'organisation CompVis à Hugging Face sous une licence qui contient des restrictions spécifiques basées sur l'utilisation afin d'éviter une mauvaise utilisation et des dommages comme indiqué par le modèle de carte, mais reste autrement permissif.


Imagen utilise un énorme encodeur T5-XXL congelé pour encoder le texte d'entrée dans des incrustations. Un modèle de diffusion conditionnel mappe l'incorporation du texte dans une image 64×64. Imagen utilise ensuite des modèles de diffusion à super-résolution conditionnelle au texte pour upsampler l'image 64×64→256×256 et 256×256→1024×1024.

Poids

Les points de contrôle suivants sont fournis actuellement :

  • sd-v1-1.ckpt : 237k pas à la résolution 256x256 sur laion2B-fr. 194k pas à la résolution 512x512 sur laion-high-resolution (170M exemples de LAION-5B avec résolution >= 1024x1024) ;
  • sd-v1-2.ckpt : Repris de sd-v1-1.ckpt. 515k étapes à la résolution 512x512 sur laion-aesthetics v2 5+ (un sous-ensemble de laion2B-fr avec un score esthétique estimé > 5.0, et filtré en plus sur les images avec une taille originale >= 512x512, et une probabilité de filigrane estimée < 0.5. L'estimation du filigrane provient des métadonnées de LAION-5B, le score esthétique est estimé à l'aide du LAION-Aesthetics Predictor V2) ;
  • sd-v1-3.ckpt : Reprise de sd-v1-2.ckpt. 195k pas à la résolution 512x512 sur « laion-aesthetics v2 5+ » et abandon de 10 % du conditionnement du texte pour améliorer l'échantillonnage de guidage sans classificateur ;
  • sd-v1-4.ckpt : Reprise de sd-v1-2.ckpt. 225k pas à la résolution 512x512 sur « laion-aesthetics v2 5+ » et 10% d'abandon du conditionnement du texte pour améliorer l'échantillonnage du guidage sans classificateur.

Les évaluations avec différentes échelles de contrôle sans classificateur (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) et 50 étapes d'échantillonnage PLMS montrent les améliorations relatives des points de contrôle :

Contrairement à DALL-E mini et Disco Diffusion, qui sont des logiciels ouverts comparables, Stable Diffusion peut créer d'incroyables œuvres d'art photoréalistes et artistiques qui n'ont rien à envier aux modèles d'OpenAI ou de Google. Certains affirment même qu'il s'agit du nouvel état de l'art parmi les « moteurs de recherche génératifs », comme Mostaque aime les appeler.

Bien que l'utilisation commerciale soit autorisée selon les termes de la licence, Stability AI ne recommande pas l'utilisation des poids fournis pour des services ou des produits sans mécanismes et considérations de sécurité supplémentaires, car il existe des limitations et des biais connus des poids, et la recherche sur le déploiement sûr et éthique des modèles généraux de conversion texte-image est un effort continu. « Les poids sont des artefacts de recherche et doivent être traités comme tels », déclare Stability AI.

Le modèle lui-même s'appuie sur le travail de l'équipe de CompVis et de Runway dans leur modèle de diffusion latente largement utilisé, de Robin Rombach du groupe de recherche Machine Vision & Learning de LMU Munich (anciennement CompVis lab à l'Université de Heidelberg), combiné aux idées des modèles de diffusion conditionnelle de de l’équipe d'IA générative de Stability AI, Dall-E 2 d'Open AI, Imagen de Google Brain et bien d'autres.

La diffusion stable est un modèle texte-image qui permettra à des milliards de personnes de créer des œuvres d'art étonnantes en quelques secondes. Il s'agit d'une percée en termes de vitesse et de qualité, ce qui signifie qu'il peut fonctionner sur des GPU grand public. Un moyen simple de télécharger et d'échantillonner la diffusion stable est d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !