Stability AI a annoncé la sortie de la version 2.0 de Stable Diffusion. Elle apporte de nombreuses améliorations. La nouveauté la plus importante est l'amélioration du modèle texte-image OpenCLIP. Toutefois, les données de Stable Diffusion sont presque entièrement en langue anglaise. Elles supposent que les textes et les images provenant de cultures et de communautés qui ne parlent pas anglais seraient largement ignorés.
En août 2022, la startup Stability AI, en collaboration avec RunwayML, LMU Munich, EleutherAI et LAION, a publié Stable Diffusion et annoncé la première étape de Stable Diffusion aux chercheurs. Stability.AI voulait construire une alternative à DALL-E 2, et ils auraient fini par faire beaucoup plus. Pour certains analystes, la Stable Diffusion incarne les meilleures caractéristiques du monde de l'art de l'IA : « il s'agit sans doute du meilleur modèle d'art de l'IA open source existant. C'est tout simplement du jamais vu et cela aura des conséquences énormes », déclare l’un d’entre eux.
Stable Diffusion est un modèle de diffusion latente texte-image. Grâce à un généreux don de calcul de Stability AI et au soutien de LAION, les chercheurs ont pu entraîner un modèle de diffusion latente sur des images 512x512 provenant d'un sous-ensemble de la base de données LAION-5B. Similaire à Imagen de Google, ce modèle utilise un encodeur de texte CLIP ViT-L/14 gelé pour conditionner le modèle à des invites textuelles. Avec son UNet de 860M et son encodeur de texte de 123M, le modèle est relativement léger et fonctionne sur un GPU avec au moins 10 Go de VRAM.
Stable Diffusion peut être utilisé en ligne contre paiement et avec des filtres de contenu, ou téléchargé gratuitement et utilisé localement sans restriction de contenu. La version 2.0 poursuit cette approche open source. En tête de liste, on trouve Stability AI.
Amélioration de l'encodeur de texte et nouveaux modes d'image
Pour la version 2.0, l'équipe a utilisé OpenCLIP (Contrastive Language-Image Pre-training), une version améliorée du système d'IA multimodale qui apprend les concepts visuels à partir du langage naturel de manière auto-supervisée. OpenCLIP a été publié par LAION en trois versions à la mi-septembre et est maintenant implémenté dans Stable Diffusion. Stability AI a soutenu la formation d'OpenCLIP. Les modèles CLIP peuvent calculer des représentations d'images et de textes en tant qu'embeddings et comparer leur similarité. De cette façon, un système d'IA peut générer une image qui correspond à un texte.
Grâce à ce nouveau codeur de texte, Stable Diffusion 2.0 peut générer des images nettement meilleures que la version 1.0, selon Stability AI. Le modèle peut générer des images avec des résolutions de 512×512 et 769×768 pixels, qui sont ensuite mises à l'échelle à 2048×2048 pixels par un modèle de diffusion upscaler qui est également nouveau. Le nouveau modèle Open CLIP a été entraîné avec un « ensemble de données qualitatif » compilé par Stability AI sur la base de l'ensemble de données LAION-5B. Les contenus sexuels et pornographiques ont été filtrés au préalable.
Le modèle profondeur-image
Autre nouveauté, un modèle profondeur-image qui analyse la profondeur d'une image en entrée, puis utilise une entrée textuelle pour la transformer en nouveaux motifs avec les contours de l'image originale. La version 2.0 de Stable Diffusion est également dotée d'un modèle d'inpainting qui peut être utilisé pour remplacer des éléments individuels d'une image dans une image existante, par exemple pour peindre une casquette ou un casque VR sur la tête.
« Nous avons déjà vu que, lorsque des millions de personnes mettent la main sur ces modèles, elles créent collectivement des choses vraiment étonnantes. C'est la puissance de l'open source : exploiter le vaste potentiel de millions de personnes talentueuses qui n'ont peut-être pas les ressources nécessaires pour former un modèle de pointe, mais qui ont la capacité de faire quelque chose d'incroyable avec un modèle », Stabilité de l'IA.
Stability.ai serait né pour créer non pas seulement des modèles de recherche qui n'arrivent jamais dans les mains de la majorité, mais des outils avec des applications du monde réel ouvertes pour les utilisateurs. C'est un changement par rapport à d'autres entreprises technologiques comme OpenAI, qui garde jalousement les secrets de ses meilleurs systèmes (GPT-3 et DALL-E 2), ou Google qui n'a jamais eu l'intention de publier ses propres systèmes (PaLM, LaMDA, Imagen ou Parti) en tant que bêtas privés.
Stable Diffusion : les limites du modèle
Malgré les nombreuses améliorations, et bien que Stable Diffusion dispose de capacités de pointe, il existe toujours des situations où elle sera inférieure à d'autres pour certaines tâches. La version 2.0 de Stable Diffusion devrait toujours fonctionner localement sur une seule carte graphique puissante avec une mémoire suffisante.
Comme de nombreux frameworks de génération d'images, Stable Diffusion a des limites créées par un certain nombre de facteurs, y compris les limites naturelles d'un ensemble de données d'images pendant la formation, les préjugés introduits par les développeurs sur ces images, et les bloqueurs intégrés dans le modèle pour empêcher une mauvaise utilisation.
Limites de l'ensemble d'entraînement
Les données de formation utilisées pour un framework de génération d'images auront toujours un impact significatif sur l'étendue de ses capacités. Même en travaillant avec des données massives, comme le jeu de données LAION 2B(en) utilisé pour l'entraînement de Stable Diffusion, il est possible de confondre le modèle en faisant référence à des types d'images inconnus avec l'invite d'entrée. Les caractéristiques qui ne sont pas incluses dans l'étape de formation initiale seront impossibles à recréer, car le modèle n'a aucune compréhension de ces caractéristiques. Les figures et les visages humains en sont l'exemple le plus évident. Le modèle n'aurait pas été formé dans le but d'affiner ces caractéristiques dans les résultats générés.
Biais introduit par les chercheurs
Les chercheurs à l'origine de Stable Diffusion ont reconnu l'effet de biais social inhérent à une telle tâche. Principalement, Stable Diffusion v1 a été entraîné sur des sous-ensembles du jeu de données LAION-2B(en). Ces données sont presque entièrement en langue anglaise. Elles supposent que les textes et les images provenant de cultures et de communautés qui ne parlent pas anglais seraient largement ignorés.
Ce choix de se concentrer sur ces données en langue anglaise permet une connexion plus solide entre les invites en langue anglaise et les résultats, mais affecte simultanément les résultats en forçant les influences culturelles anglo-saxonnes à être des traits dominants dans les images produites. Dans le même ordre d'idées, la capacité d'utiliser des invites d'entrée en langue non anglaise est inhibée par ce paradigme de formation.
Source : Stability AI
Et vous ?
Que pensez-vous de la version 2 de Stable Diffusion ?
Voyez-vous en ce modèle la capacité de détrôner les modèles d'Open AI GPT-3 et DALL-E 2 ?
Voir aussi :
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur
DALL-E Mini serait la machine à mèmes IA préférée d'Internet, l'application de génération d'images permet de comprendre comment l'IA peut déformer la réalité
Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image,
Il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image
Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image,
Il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !