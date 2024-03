Stable Video 3D : Synthèse d'une nouvelle vue de qualité et génération 3D à partir d'images uniques



Lorsque nous avons lancé Stable Video Diffusion, nous avons souligné la polyvalence de notre modèle vidéo dans diverses applications. Sur cette base, nous sommes ravis de lancer Stable Video 3D. Ce nouveau modèle fait progresser le domaine de la technologie 3D, en offrant une qualité et un affichage multi-vues grandement améliorés par rapport au modèle Stable Zero123 publié précédemment, ainsi qu'en surpassant d'autres alternatives open source telles que Zero123-XL.



Cette version comporte deux variantes :



SV3D_u : Cette variante génère des vidéos orbitales à partir d'une seule image sans conditionnement de la caméra.





SV3D_p : Étendant les capacités de SVD3_u, cette variante prend en charge à la fois les images uniques et les vues orbitales, ce qui permet de créer des vidéos 3D le long de trajectoires de caméra spécifiées.

Avantages de la diffusion vidéo



En adaptant notre modèle de diffusion d'image à vidéo de Stable Video Diffusion avec l'ajout du conditionnement de la trajectoire de la caméra, Stable Video 3D est capable de générer des vidéos multi-vues d'un objet. L'utilisation de modèles de diffusion vidéo, contrairement aux modèles de diffusion d'images utilisés dans Stable Zero123, offre des avantages majeurs en termes de généralisation et de cohérence des sorties générées. En outre, nous proposons une optimisation 3D améliorée en tirant parti de cette puissante capacité de Stable Video 3D pour générer des orbites arbitraires autour d'un objet. En mettant en œuvre ces techniques avec l'optimisation de l'éclairage démêlé ainsi qu'une nouvelle fonction de perte d'échantillonnage par distillation de score masqué, Stable Video 3D est capable de produire de manière fiable des maillages 3D de qualité à partir d'une seule image d'entrée.



Génération de nouvelles vues



Stable Video 3D introduit des avancées significatives dans la génération 3D, en particulier dans la synthèse de nouvelles vues (NVS). Contrairement aux approches précédentes qui sont souvent confrontées à des perspectives limitées et à des incohérences dans les résultats, Stable Video 3D est capable de fournir des vues cohérentes à partir de n'importe quel angle avec une généralisation efficace. Cette capacité permet non seulement d'améliorer le contrôle de la pose, mais aussi de garantir la cohérence de l'apparence des objets sur plusieurs vues, ce qui améliore encore les aspects essentiels de la génération de 3D réalistes et précises.



Génération 3D



Stable Video 3D tire parti de sa cohérence multi-vues pour optimiser les champs de radiance neuronale (NeRF) et les représentations de maillage 3D afin d'améliorer la qualité des maillages 3D générés directement à partir de nouvelles vues. Pour ce faire, nous avons conçu une perte d'échantillonnage par distillation de score masquée afin d'améliorer encore la qualité 3D dans les régions non visibles dans les vues prédites. En outre, afin de réduire le problème de l'éclairage intégré, Stable Video 3D utilise un modèle d'éclairage démêlé qui est optimisé conjointement avec la forme et la texture 3D.



Stability AI, leader dans le domaine des modèles d'IA générative, a récemment lancé Stable Video 3D (SV3D), un nouvel outil pour le rendu de vidéos en 3D. S'appuyant sur le modèle précédent "Stable Video Diffusion" de Stability AI, SV3D permet aux utilisateurs de générer et de transformer des maillages 3D multi-vues à partir d'une seule image d'entrée. Cette nouvelle technologie devrait révolutionner le secteur des jeux et améliorer l'expérience d'achat en ligne.Stable Video Diffusion, développé par Stability AI, permet aux utilisateurs de générer de courtes vidéos à partir d'une image ou d'un texte. Avec SV3D, Stability AI va encore plus loin en incorporant une nouvelle synthèse de vues et la génération de 3D. En adaptant le modèle Stable Video Diffusion et en ajoutant le conditionnement de la trajectoire de la caméra, SV3D peut créer des vidéos multi-vues d'un objet, offrant ainsi une expérience plus immersive et interactive.L'une des principales applications de SV3D se trouve dans le secteur des jeux. Varun Jampani, chercheur principal chez Stability AI, souligne la valeur de SV3D dans la génération d'actifs 3D pour la création de jeux. La possibilité de générer des vidéos orbitales à 360 degrés améliore également le secteur du commerce électronique, en offrant aux consommateurs une expérience d'achat plus immersive.Stability AI est connue pour ses modèles d'IA générative texte-image Stable Diffusion, tels que SDXL et Stable Diffusion 3.0. La sortie de Stable Zero123 en décembre 2023 a marqué le début d'une série de modèles 3D de Stability AI. SV3D est le successeur de Stable Zero123 et adopte une approche différente de la génération de modèles 3D.Contrairement à Stable Zero123, qui génère une image à la fois, SV3D génère plusieurs nouvelles vues simultanément. Cela permet d'obtenir des vues inédites de meilleure qualité et de meilleurs maillages 3D à partir d'une seule image d'entrée. Les chercheurs de Stability AI détaillent les techniques utilisées dans SV3D pour permettre la génération de 3D à partir d'une seule image en utilisant la diffusion vidéo latente. La capacité de générer de nouvelles images multi-vues cohérentes d'un objet différencie SV3D des approches précédentes, qui se heurtent souvent à des perspectives limitées et à des incohérences.SV3D se concentre également sur l'optimisation des maillages 3D. En tirant parti de sa cohérence multi-vues, SV3D peut générer des maillages 3D de haute qualité directement à partir des nouvelles vues qu'il produit. Cette optimisation améliore la qualité globale des maillages 3D et le résultat final.SV3D existe en deux variantes : SV3D_u et SV3D_p. SV3D_u génère des vidéos orbitales à partir d'une seule image sans avoir besoin de conditionner la caméra. SV3D_p, quant à lui, prend en charge à la fois les images uniques et les vues orbitales, ce qui permet aux utilisateurs de créer des vidéos en 3D le long de trajectoires de caméra spécifiques.Stability AI a rendu SV3D disponible pour une utilisation commerciale avec une adhésion professionnelle à Stability AI. Les créateurs et les développeurs dont le chiffre d'affaires annuel est inférieur à 1 million de dollars peuvent accéder à SV3D pour 20 dollars par mois. À des fins non commerciales, les utilisateurs peuvent télécharger les poids du modèle à partir de Hugging Face.En conclusion, le lancement par Stability AI de Stable Video 3D (SV3D) apporte de nouvelles possibilités au monde de la stabilité vidéo et de la génération 3D. Grâce à sa capacité à créer et à transformer des maillages 3D multi-vues à partir d'une seule image d'entrée, SV3D devrait révolutionner le secteur des jeux et améliorer l'expérience d'achat en ligne. Les avancées en matière de synthèse de nouvelles vues et d'optimisation des maillages 3D font de SV3D un outil précieux pour les créateurs et les développeurs. Alors que Stability AI continue d'innover dans le domaine des modèles d'IA générative, SV3D s'impose comme un ajout puissant à son portefeuille.