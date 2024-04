VASA-1 : Des visages parlants réalistes grâce à l'audio, générés en temps réel

Nous présentons VASA, un cadre permettant de générer des visages parlants réalistes de personnages virtuels dotés de compétences visuelles et affectives (VAS) attrayantes, à partir d'une seule image statique et d'un clip audio de parole. Notre premier modèle, VASA-1, est capable non seulement de produire des mouvements labiaux parfaitement synchronisés avec l'audio, mais aussi de capturer un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception de l'authenticité et de la vivacité. Les principales innovations comprennent un modèle holistique de dynamique faciale et de génération de mouvements de tête qui fonctionne dans un espace latent de visage, et le développement d'un tel espace latent de visage expressif et démêlé à l'aide de vidéos. Grâce à des expériences approfondies, y compris l'évaluation d'un ensemble de nouvelles mesures, nous montrons que notre méthode est nettement plus performante que les méthodes précédentes dans diverses dimensions. Notre méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512x512 jusqu'à 40 FPS avec une latence de départ négligeable. Elle ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains.Notre méthode est capable non seulement de produire une synchronisation lèvres-audio précieuse, mais aussi de générer un large spectre de nuances faciales expressives et de mouvements naturels de la tête. Elle peut prendre en charge des données audio de longueur arbitraire et produire de manière stable des vidéos de visages parlants homogènes.Notre modèle de diffusion accepte des signaux optionnels comme condition, tels que la direction du regard principal et la distance de la tête, ainsi que les décalages d'émotion.Notre méthode est capable de traiter des entrées photo et audio qui ne sont pas dans la distribution d'apprentissage. Par exemple, elle peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble de formation.Notre représentation latente démêle l'apparence, la pose de la tête en 3D et la dynamique du visage, ce qui permet de contrôler et d'éditer séparément les attributs du contenu généré.Notre méthode génère des images vidéo de 512x512 à 45 images par seconde en mode de traitement par lots hors ligne, et peut prendre en charge jusqu'à 40 images par seconde en mode de streaming en ligne avec une latence précédente de seulement 170 ms, évaluée sur un PC de bureau avec un seul GPU NVIDIA RTX 4090.Notre recherche se concentre sur la génération de compétences visuelles affectives pour les avatars virtuels de l'IA, en vue d'applications positives. Elle ne vise pas à créer un contenu utilisé pour tromper ou induire en erreur. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou nuisibles de personnes réelles, et nous sommes intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Actuellement, les vidéos générées par cette méthode contiennent encore des artefacts identifiables, et l'analyse numérique montre qu'il y a encore du chemin à faire pour atteindre l'authenticité des vraies vidéos.Tout en reconnaissant la possibilité d'une utilisation abusive, il est impératif de reconnaître le potentiel positif substantiel de notre technique. Les avantages - tels que le renforcement de l'équité en matière d'éducation, l'amélioration de l'accessibilité pour les personnes ayant des difficultés de communication, l'offre d'une compagnie ou d'un soutien thérapeutique à ceux qui en ont besoin, entre autres - soulignent l'importance de notre recherche et d'autres explorations connexes. Nous sommes déterminés à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain.Dans ce contexte, nous n'avons pas l'intention de publier une démo en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur.