
La technologie d'intelligence artificielle générative Stable Diffusion est le premier produit de Stability AI et est considérée comme faisant partie du boom actuel de l'intelligence artificielle. Elle est principalement utilisée pour générer des images détaillées à partir de descriptions textuelles, bien qu'elle puisse également être appliquée à d'autres tâches telles que l'inpainting, l'outpainting et la génération de traductions d'image à image guidées par un texte
Après la déception causée par Stable Diffusion (SD) 3 Medium, Stability AI est peut-être en train de commencer son propre arc de rédemption. La société d'IA revient avec la sortie de deux nouveaux modèles qui avaient été promis en juillet 2024 : Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo.
"En juin, nous avons sorti Stable Diffusion 3 Medium, la première version ouverte de la série Stable Diffusion 3. Cette version ne répondait pas entièrement à nos normes ni aux attentes de nos communautés", a déclaré Stability AI. "Après avoir écouté les précieux commentaires de la communauté, nous avons pris le temps de développer une version qui fait avancer notre mission de transformation des médias visuels. Nous avons généré quelques images pour l'essayer avant de nous empresser d'écrire cette nouvelle fracassante, et les résultats étaient très, très bons. Surtout pour un modèle de base."
La famille SD 3.5 est conçue pour fonctionner sur des systèmes grand public, même bas de gamme selon certaines normes, pour rendre la génération d'images avancée plus accessible. Et oui, ils ont entendu les plaintes concernant la version précédente et celle-ci promet d'être bien meilleure, à tel point que l'image vedette est une femme allongée sur de l'herbe, une référence ironique à l'horreur qui s'est produite plus tôt lorsqu'on lui a présenté le même défi.
Un autre aspect important de cette version est le nouveau modèle de licence. Stable Diffusion 3.5 est livré sous une licence plus permissive, autorisant à la fois l'utilisation commerciale et non commerciale. Les petites entreprises et les personnes qui tirent moins de 1 000 000 $ de revenus de l'outil peuvent utiliser et développer ces modèles gratuitement.
Les entreprises dont les revenus sont plus importants doivent contacter Stability AI pour négocier les droits d'utilisation. À titre de comparaison, Black Forest Labs propose son modèle bas de gamme Flux Schnell gratuitement, son modèle moyen Flux Dev gratuitement avec une utilisation non commerciale et son modèle SOTA Flux Pro est un modèle à source fermée. (Pour référence, Flux est généralement considéré comme le meilleur générateur d'images open source actuellement disponible - du moins dans l'ère post-SDXL actuelle).
Voici les déclarations de Stability AI pour l'annonce :
Nous publions aujourd'hui Stable Diffusion 3.5, nos modèles les plus puissants à ce jour. Cette version ouverte comprend de multiples variantes personnalisables, fonctionnant sur du matériel grand public, et disponibles sous la licence permissive Stability AI Community License. Vous pouvez télécharger les modèles Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo de Hugging Face ainsi que le code d'inférence sur GitHub dès maintenant.
En juin, nous avons publié Stable Diffusion 3 Medium, la première version ouverte de la série Stable Diffusion 3. Cette version ne répondait pas entièrement à nos standards ni aux attentes de nos communautés. Après avoir écouté les précieux commentaires de la communauté, nous avons pris le temps de développer une version qui fait avancer notre mission de transformation des médias visuels.
Stable Diffusion 3.5 reflète notre engagement à donner aux constructeurs et aux créateurs des outils largement accessibles, à la pointe de la technologie et gratuits pour la plupart des cas d'utilisation. Nous encourageons la distribution et la monétisation du travail sur l'ensemble du pipeline - qu'il s'agisse de réglages fins, de LoRA, d'optimisations, d'applications ou d'œuvres d'art.
Présentation des modèles Stable Diffusion 3.5
- Stable Diffusion 3.5 Large : Avec 8 milliards de paramètres, une qualité supérieure et une adhésion rapide, ce modèle de base est le plus puissant de la famille Stable Diffusion. Ce modèle est idéal pour les utilisations professionnelles avec une résolution de 1 mégapixel.
- Stable Diffusion 3.5 Large Turbo : Une version distillée de Stable Diffusion 3.5 Large génère des images de haute qualité avec une adhérence en 4 étapes, ce qui le rend plus rapide que Stable Diffusion 3.5 Large.
- Stable Diffusion 3.5 Medium (à paraître le 29 octobre) : Avec 2,5 milliards de paramètres, une architecture MMDiT-X et des méthodes d'apprentissage améliorées, ce modèle est conçu pour fonctionner "prêt à l'emploi" sur du matériel grand public, en trouvant un équilibre entre la qualité et la facilité de personnalisation. Il est capable de générer des images d'une résolution comprise entre 0,25 et 2 mégapixels.
Développement des modèles
Lors du développement des modèles, Stability AI a donné la priorité à la personnalisation afin d'offrir une base flexible sur laquelle s'appuyer. Pour ce faire, ils ont intégré la normalisation Query-Key dans les blocs de transformation, ce qui a permis de stabiliser le processus d'apprentissage du modèle et de simplifier la mise au point et le développement ultérieurs.
Pour soutenir ce niveau de flexibilité en aval, il faut faire quelques compromis. Une plus grande variation dans les résultats d'une même invite avec différentes graines peut se produire, ce qui est intentionnel car cela permet de préserver une base de connaissances plus large et des styles divers dans les modèles de base. Cependant, les messages manquant de spécificité peuvent entraîner une plus grande incertitude dans les résultats, et le niveau esthétique peut varier.
Pour le modèle moyen en particulier, ils ont apporté plusieurs ajustements à l'architecture et aux protocoles de formation afin d'améliorer la qualité, la cohérence et les capacités de génération multi-résolution.
Les points forts des modèles
- Personnalisation : Ajustez facilement le modèle pour répondre à vos besoins créatifs spécifiques ou créez des applications basées sur des flux de travail personnalisés.
- Performances efficaces : Optimisé pour fonctionner sur du matériel grand public standard sans exigences élevées, en particulier les modèles Stable Diffusion 3.5 Medium et Stable Diffusion 3.5 Large Turbo.
- Diversité des résultats : Crée des images représentatives du monde, et non d'un seul type de personne, avec différents tons de peau et caractéristiques, sans qu'il soit nécessaire de recourir à des instructions détaillées.
- Styles polyvalents : Capable de générer un large éventail de styles et d'esthétiques tels que la 3D, la photographie, la peinture, le dessin au trait et pratiquement tous les styles visuels imaginables.
Performance des modèles
L'analyse montre que Stable Diffusion 3.5 Large est plus rapide en termes d'adhérence et rivaliserait avec des modèles beaucoup plus grands en termes de qualité d'image.
Stable Diffusion 3.5 Large Turbo offre des temps d'inférence parmi les plus rapides pour sa taille, tout en restant compétitif en termes de qualité d'image et de rapidité d'adhésion, même lorsqu'on le compare à des modèles non distillés de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.