La technologie d'intelligence artificielle générative Stable Diffusion est le premier produit de Stability AI et est considérée comme faisant partie du boom actuel de l'intelligence artificielle. Elle est principalement utilisée pour générer des images détaillées à partir de descriptions textuelles, bien qu'elle puisse également être appliquée à d'autres tâches telles que l'inpainting, l'outpainting et la génération de traductions d'image à image guidées par un texte
Après la déception causée par Stable Diffusion (SD) 3 Medium, Stability AI est peut-être en train de commencer son propre arc de rédemption. La société d'IA revient avec la sortie de deux nouveaux modèles qui avaient été promis en juillet 2024 : Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo.
"En juin, nous avons sorti Stable Diffusion 3 Medium, la première version ouverte de la série Stable Diffusion 3. Cette version ne répondait pas entièrement à nos normes ni aux attentes de nos communautés", a déclaré Stability AI. "Après avoir écouté les précieux commentaires de la communauté, nous avons pris le temps de développer une version qui fait avancer notre mission de transformation des médias visuels. Nous avons généré quelques images pour l'essayer avant de nous empresser d'écrire cette nouvelle fracassante, et les résultats étaient très, très bons. Surtout pour un modèle de base."
La famille SD 3.5 est conçue pour fonctionner sur des systèmes grand public, même bas de gamme selon certaines normes, pour rendre la génération d'images avancée plus accessible. Et oui, ils ont entendu les plaintes concernant la version précédente et celle-ci promet d'être bien meilleure, à tel point que l'image vedette est une femme allongée sur de l'herbe, une référence ironique à l'horreur qui s'est produite plus tôt lorsqu'on lui a présenté le même défi.
Un autre aspect important de cette version est le nouveau modèle de licence. Stable Diffusion 3.5 est livré sous une licence plus permissive, autorisant à la fois l'utilisation commerciale et non commerciale. Les petites entreprises et les personnes qui tirent moins de 1 000 000 $ de revenus de l'outil peuvent utiliser et développer ces modèles gratuitement.
Les entreprises dont les revenus sont plus importants doivent contacter Stability AI pour négocier les droits d'utilisation. À titre de comparaison, Black Forest Labs propose son modèle bas de gamme Flux Schnell gratuitement, son modèle moyen Flux Dev gratuitement avec une utilisation non commerciale et son modèle SOTA Flux Pro est un modèle à source fermée. (Pour référence, Flux est généralement considéré comme le meilleur générateur d'images open source actuellement disponible - du moins dans l'ère post-SDXL actuelle).
Voici les déclarations de Stability AI pour l'annonce :
Nous publions aujourd'hui Stable Diffusion 3.5, nos modèles les plus puissants à ce jour. Cette version ouverte comprend de multiples variantes personnalisables, fonctionnant sur du matériel grand public, et disponibles sous la licence permissive Stability AI Community License. Vous pouvez télécharger les modèles Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo de Hugging Face ainsi que le code d'inférence sur GitHub dès maintenant.
En juin, nous avons publié Stable Diffusion 3 Medium, la première version ouverte de la série Stable Diffusion 3. Cette version ne répondait pas entièrement à nos standards ni aux attentes de nos communautés. Après avoir écouté les précieux commentaires de la communauté, nous avons pris le temps de développer une version qui fait avancer notre mission de transformation des médias visuels.
Stable Diffusion 3.5 reflète notre engagement à donner aux constructeurs et aux créateurs des outils largement accessibles, à la pointe de la technologie et gratuits pour la plupart des cas d'utilisation. Nous encourageons la distribution et la monétisation du travail sur l'ensemble du pipeline - qu'il s'agisse de réglages fins, de LoRA, d'optimisations, d'applications ou d'œuvres d'art.
Présentation des modèles Stable Diffusion 3.5
- Stable Diffusion 3.5 Large : Avec 8 milliards de paramètres, une qualité supérieure et une adhésion rapide, ce modèle de base est le plus puissant de la famille Stable Diffusion. Ce modèle est idéal pour les utilisations professionnelles avec une résolution de 1 mégapixel.
- Stable Diffusion 3.5 Large Turbo : Une version distillée de Stable Diffusion 3.5 Large génère des images de haute qualité avec une adhérence en 4 étapes, ce qui le rend plus rapide que Stable Diffusion 3.5 Large.
- Stable Diffusion 3.5 Medium (à paraître le 29 octobre) : Avec 2,5 milliards de paramètres, une architecture MMDiT-X et des méthodes d'apprentissage améliorées, ce modèle est conçu pour fonctionner "prêt à l'emploi" sur du matériel grand public, en trouvant un équilibre entre la qualité et la facilité de personnalisation. Il est capable de générer des images d'une résolution comprise entre 0,25 et 2 mégapixels.
Développement des modèles
Lors du développement des modèles, Stability AI a donné la priorité à la personnalisation afin d'offrir une base flexible sur laquelle s'appuyer. Pour ce faire, ils ont intégré la normalisation Query-Key dans les blocs de transformation, ce qui a permis de stabiliser le processus d'apprentissage du modèle et de simplifier la mise au point et le développement ultérieurs.
Pour soutenir ce niveau de flexibilité en aval, il faut faire quelques compromis. Une plus grande variation dans les résultats d'une même invite avec différentes graines peut se produire, ce qui est intentionnel car cela permet de préserver une base de connaissances plus large et des styles divers dans les modèles de base. Cependant, les messages manquant de spécificité peuvent entraîner une plus grande incertitude dans les résultats, et le niveau esthétique peut varier.
Pour le modèle moyen en particulier, ils ont apporté plusieurs ajustements à l'architecture et aux protocoles de formation afin d'améliorer la qualité, la cohérence et les capacités de génération multi-résolution.
Les points forts des modèles
- Personnalisation : Ajustez facilement le modèle pour répondre à vos besoins créatifs spécifiques ou créez des applications basées sur des flux de travail personnalisés.
- Performances efficaces : Optimisé pour fonctionner sur du matériel grand public standard sans exigences élevées, en particulier les modèles Stable Diffusion 3.5 Medium et Stable Diffusion 3.5 Large Turbo.
- Diversité des résultats : Crée des images représentatives du monde, et non d'un seul type de personne, avec différents tons de peau et caractéristiques, sans qu'il soit nécessaire de recourir à des instructions détaillées.
- Styles polyvalents : Capable de générer un large éventail de styles et d'esthétiques tels que la 3D, la photographie, la peinture, le dessin au trait et pratiquement tous les styles visuels imaginables.
Performance des modèles
L'analyse montre que Stable Diffusion 3.5 Large est plus rapide en termes d'adhérence et rivaliserait avec des modèles beaucoup plus grands en termes de qualité d'image.
Stable Diffusion 3.5 Large Turbo offre des temps d'inférence parmi les plus rapides pour sa taille, tout en restant compétitif en termes de qualité d'image et de rapidité d'adhésion, même lorsqu'on le compare à des modèles non distillés de taille similaire.
Stable Diffusion 3.5 Medium surpasserait les autres modèles de taille moyenne, offrant un équilibre entre l'adhérence rapide et la qualité de l'image, pour des performances efficaces et de haute qualité.
Présentation de la licence Stability AI Community
Voici les principaux éléments de la nouvelle licence :
- Utilisation gratuite à des fins non commerciales : Les particuliers et les organisations peuvent utiliser le modèle gratuitement à des fins non commerciales, y compris pour la recherche scientifique.
- Gratuit pour une utilisation commerciale (jusqu'à 1 million de dollars de revenus annuels) : Les startups, les petites et moyennes entreprises et les créateurs peuvent utiliser gratuitement le modèle à des fins commerciales, à condition que leur revenu annuel total soit inférieur à 1 million de dollars.
- Propriété des résultats : Conserver la propriété des médias générés sans implications restrictives en matière de licences.
Pour les organisations dont le chiffre d'affaires annuel est supérieur à 1 million de dollars, il faut obtenir une licence d'entreprise.
Stability AI conclut l'annonce :
Nous croyons en des pratiques d'IA sûres et responsables et prenons des mesures délibérées pour garantir l'intégrité dès les premières étapes du développement. Cela signifie que nous avons pris et continuons à prendre des mesures raisonnables pour empêcher l'utilisation abusive de Stable Diffusion 3.5 par de mauvais acteurs.
Le 29 octobre, nous publierons Stable Diffusion 3.5 Medium. Peu de temps après, ControlNets sera également lancé, fournissant des fonctionnalités de contrôle avancées pour une grande variété de cas d'utilisation professionnelle.
Le 29 octobre, nous publierons Stable Diffusion 3.5 Medium. Peu de temps après, ControlNets sera également lancé, fournissant des fonctionnalités de contrôle avancées pour une grande variété de cas d'utilisation professionnelle.
Source : Stability AI
Et vous ?
Pensez-vous que ces nouveaux modèles sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?
Voir aussi :
La nouvelle version de Stable Diffusion 3 excelle dans l'horreur corporelle avec des images de personnes mutilées générées par l'IA. Les utilisateurs se demandent si cette version est censée être une blague
Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres, bat Midjourney, Stable Diffusion 3 et Auraflow, par Black Forest Labs, l'équipe de l'original Stable Diffusion
Le nouveau générateur d'images de la société IA d'Elon Musk peut créer n'importe quoi, de Macron et Trudeau qui s'embrassent à Mickey Mouse avec une arme. Faut-il censurer comme ChatGPT ou laisser faire ?