Dans cet article, nous avons présenté MIMO, un nouveau cadre pour la synthèse vidéo de personnages contrôlables, qui permet un contrôle flexible de l'utilisateur avec des entrées d'attributs simples. Notre méthode introduit une nouvelle architecture générative qui décompose le clip vidéo en diverses composantes spatiales et intègre leurs codes latents comme condition du décodeur pour reconstruire le clip vidéo.



La synthèse vidéo de personnages vise à produire des vidéos réalistes de personnages animables dans des scènes réalistes. En tant que problème fondamental dans la communauté de la vision par ordinateur et du graphisme, les travaux 3D nécessitent généralement des captures multi-vues pour l'apprentissage au cas par cas, ce qui limite considérablement leur applicabilité à la modélisation de personnages arbitraires en un court laps de temps. Les méthodes récentes en 2D surmontent cette limitation grâce à des modèles de diffusion pré-entraînés, mais elles peinent à assurer la généralité de la pose et l'interaction avec la scène.À cette fin, des chercheurs d'Alibaba proposent MIMO, un nouveau cadre qui peut non seulement synthétiser des vidéos de personnages avec des attributs contrôlables (c'est-à-dire le personnage, le mouvement et la scène) fournis par de simples entrées utilisateur, mais aussi atteindre simultanément une évolutivité avancée pour des personnages arbitraires, une généralité pour de nouveaux mouvements 3D et une applicabilité à des scènes interactives du monde réel dans un cadre unifié. L'idée de base est d'encoder la vidéo 2D en codes spatiaux compacts, en tenant compte de la nature 3D inhérente à l'occurrence vidéo.Concrètement, ils transforment les pixels des images 2D en 3D à l'aide d'estimateurs de profondeur monoculaires et décomposent le clip vidéo en trois composants spatiaux (c'est-à-dire l'homme principal, la scène sous-jacente et l'occlusion flottante) dans des couches hiérarchiques basées sur la profondeur 3D. Ces composantes sont ensuite codées en code d'identité canonique, en code de mouvement structuré et en code de scène complète, qui sont utilisés comme signaux de contrôle du processus de synthèse.La conception de la modélisation décomposée dans l'espace permet un contrôle flexible de l'utilisateur, l'expression de mouvements complexes, ainsi qu'une synthèse consciente de la 3D pour les interactions avec la scène. Les résultats expérimentaux démontrent l'efficacité et la robustesse de la méthode proposée.