Les outils d'IA de génération d'image fonctionnent généralement selon un processus connu sous le nom de "diffusion". Pour faire simple, le modèle qui génère l'image commence par une image très vague et floue, et des étapes d'échantillonnage successives affinent l'image jusqu'à ce qu'elle soit nette et réaliste ; ou du moins, aussi réelle que le modèle peut l'être par rapport à ce que vous avez demandé. La diffusion est généralement un processus qui prend du temps et nécessite de nombreuses étapes. Malgré cela, les outils d'IA comme Stable Diffusion et DALL-E-3 aident certains utilisateurs à accélérer leur flux de travail.
Mais Adobe Research et une équipe de chercheurs du MIT annoncent avoir trouvé un moyen plus rapide de générer des images avec une haute résolution. Selon l'équipe, cette technique réduit un modèle de diffusion à plusieurs étapes à une solution de génération d'images en une seule étape. Le modèle résultant peut ensuite générer des images dont "la qualité" est comparable aux modèles de diffusion traditionnels tels que Stable Diffusion 1.5, mais des ordres de grandeur plus rapides. Lors d'un test basé sur Stable Diffusion 1.5, le temps de génération des images a été réduit d'un facteur 30, passant de 2590 ms à 90 ms.
Dans un communiqué de presse, Tianwei Yin, étudiant en doctorat de génie électrique et d'informatique au MIT et auteur principale de l'étude, affirme : « notre recherche combine les principes des réseaux antagonistes génératifs (Generative Adversarial Network - GAN) et des modèles de diffusion pour réaliser la génération de contenu visuel en une seule étape, ce qui représente une amélioration par rapport aux modèles de diffusion actuels. Il s'agit potentiellement d'une nouvelle méthode de modélisation générative d'une rapidité et d'une qualité supérieures ». Le résumé du rapport publié par les chercheurs indique :
Les modèles de diffusion génèrent des images de haute qualité, mais nécessitent des dizaines d'étapes en avant. Nous présentons "Distribution Matching Distillation" (DMD), une procédure permettant de transformer un modèle de diffusion en un générateur d'images en une seule étape avec un impact minimal sur la qualité de l'image. Nous faisons en sorte que le générateur d'images en une étape corresponde au modèle de diffusion au niveau de la distribution, en minimisant une divergence KL approximative dont le gradient peut être exprimé comme la différence entre deux fonctions de score, l'une de la distribution cible et l'autre de la distribution synthétique produite par notre générateur en une étape.
Les fonctions de score sont paramétrées comme deux modèles de diffusion entraînés séparément sur chaque distribution. Combinée à une perte de régression simple correspondant à la structure à grande échelle des résultats de la diffusion multiétapes, notre méthode surpasse toutes les approches de diffusion en quelques étapes publiées, atteignant 2,62 FID sur ImageNet 64x64 et 11,49 FID sur COCO-30k zéro-shot, comparable à Stable Diffusion, mais des ordres de grandeur plus rapides. En utilisant l'inférence FP16, notre modèle génère des images à 20 FPS sur du matériel moderne.
Leur modèle peut générer jusqu'à 20 images par seconde sur un GPU moderne. Cette nouvelle approche devrait être très utile à l'industrie de l'IA, qui a besoin d'une génération d'images rapide et efficace, car elle réduit considérablement la puissance de calcul nécessaire pour générer des images, ce qui permet d'accélérer la génération de contenu. Fredo Durand, coauteur de l'étude, a déclaré : « depuis l'invention du modèle de diffusion, nous avons toujours cherché à réduire le nombre d'itérations. Nous sommes très satisfaits de la réduction spectaculaire des coûts de calcul et de l'accélération du processus de génération ».
La vidéo ci-dessus met en évidence la génération d'images de DMD par rapport à Stable Diffusion 1.5. Alors que Stable Diffusion a besoin de 1,4 seconde par image, le modèle DMD peut rendre une image similaire en une fraction de seconde. Il y a un compromis entre la qualité et la performance, mais les résultats finaux se situent dans des limites acceptables pour l'utilisateur moyen. La publication de l'équipe sur la nouvelle méthode de rendu présente d'autres exemples d'images produites avec DMD. L'article compare Stable Diffusion et DMD tout en fournissant l'important message-guide textuel qui a généré les images.
Selon l'équipe de recherche, le modèle peut également présenter des avantages dans les industries où la rapidité et l'efficacité de la génération sont cruciales, ce qui permettrait une création de contenu beaucoup plus rapide. Mais ce n'est pas la première fois que l'on essaie d'utiliser la distillation par diffusion pour accélérer la génération d'images. Des modèles comme Instaflow et LCM ont tenté la même chose que le DMD du MIT, avec des résultats parfois discutables. Stability AI également a mis au point une méthode appelée "Adversarial Diffusion Distillation" (ADD) pour générer des images d'un mégapixel en temps réel.
Stability AI a entraîné son modèle SDXL Turbo en utilisant la technique ADD, atteignant des vitesses de génération d'images de seulement 207 ms sur un seul GPU Nvidia A100. La méthode ADD de Stability AI utilise une approche similaire à celle du DMD du MIT. Bien que des générateurs d'images comme DALL-E et Imagine de Meta puissent produire des résultats extrêmement impressionnants, ces entreprises sont très protectrices à l'égard de leur technologie et la gardent jalousement à l'abri des regards curieux du public.
Sources : billet de blogue, rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la technique de génération d'images des chercheurs du MIT ?
En quoi cette technique pourrait-elle aider les entreprises travaillant sur des générateurs d'images ?
Voir aussi
OpenAI ajoutera bientôt des filigranes aux images générées par DALL-E 3, l'adoption des normes C2PA est essentielle pour accroître la fiabilité des informations numériques, selon OpenAI
DALL-E 3 est maintenant disponible dans ChatGPT Plus et Enterprise, permettant aux abonnés payants de ChatGPT d'utiliser le générateur d'images
Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes