Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d'une seule image

Ou de modifier une vidéo existante, lui ajoutant des éléments visuels ou sonores

Le 5 octobre 2024 à 15:36, par Stéphane le calme

84PARTAGES

Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d’une seule image,
donnant l’impression que des personnes font des choses qu’elles n’ont jamais faites

Meta, la société mère de Facebook et Instagram, a récemment dévoilé son dernier bijou technologique : Movie Gen. Cette nouvelle IA générative promet de transformer radicalement la création de vidéos en permettant de générer des vidéos réalistes à partir d’une simple photo.

Movie Gen est une suite de modèles d’IA conçus pour créer et manipuler des vidéos, des audios et des images. L’une des fonctionnalités phares de Movie Gen est la création de vidéos personnalisables, souvent appelées deepfakes. Cette technologie permet de simuler des vidéos authentiques, donnant l’impression que des personnes font des choses qu’elles n’ont jamais faites.

Vendredi, Meta a annoncé en avant-première Movie Gen, une nouvelle suite de modèles d'IA conçus pour créer et manipuler des vidéos, du son et des images, y compris la création d'une vidéo réaliste à partir d'une simple photo d'une personne. L'entreprise affirme que ces modèles sont plus performants que d'autres modèles de synthèse vidéo lorsqu'ils sont évalués par des humains, ce qui nous rapproche d'un avenir où n'importe qui pourra synthétiser une vidéo complète de n'importe quel sujet à la demande.

L'entreprise ne sait pas encore quand ni comment elle mettra ces capacités à la disposition du public, mais Meta affirme que Movie Gen est un outil qui pourrait permettre aux gens « d'améliorer leur créativité inhérente » plutôt que de remplacer les artistes et les animateurs humains. La société envisage des applications futures telles que la création et l'édition aisées de vidéos « d'une journée dans la vie » pour les plateformes de médias sociaux ou la génération de vœux d'anniversaire animés personnalisés.

Movie Gen s'appuie sur les travaux antérieurs de Meta en matière de synthèse vidéo, après le générateur vidéo Make-A-Scene de 2022 et le modèle de synthèse d'images Emu. À l'aide d'invites textuelles, ce dernier système peut pour la première fois générer des vidéos personnalisées avec des sons, éditer et insérer des modifications dans des vidéos existantes, et transformer des images de personnes en vidéos personnalisées réalistes.

Comment fonctionne Movie Gen ?

Movie Gen peut produire une vidéo à partir d'une requête (prompt) écrite, mais aussi sur la base d'une simple photo. Par exemple, à partir d’une seule photo, l’IA peut créer une vidéo en haute définition (1080p) de 16 secondes à 16 images par seconde. Elle est capable de gérer des concepts complexes tels que le mouvement des objets, les interactions sujet-objet et les mouvements de caméra. L'outil offre aussi une fonctionnalité d'édition d'une vidéo existante. Le modèle propose également d'ajouter une bande-son à la vidéo, sur le même principe de demande en langage courant.

Outre des vidéos de démonstration, le groupe a publié vendredi un papier de recherche décrivant son modèle. Les modèles de langage sont des logiciels appuyés sur d'immenses bases de données, qui leur permettent de générer du contenu, texte, image, vidéo, son ou code informatique en réponse à une demande formulée en langage courant.

Une concurrence féroce

Meta n'est pas le premier acteur de l'IA à mettre au point un modèle de génération de vidéo.

Runway aurait formé son outil d'IA de génération de vidéo à partir de milliers de vidéos YouTube sans autorisation

Runway, de la start-up Runway AI, permet, à partir d'une demande écrite, de créer un plan de quelques secondes, de transformer une série d'images fixes en courte vidéo, ou de remodeler une séquence existante pour transformer, par exemple, une photo en un tableau.

Runway est une entreprise spécialisée dans l'IA qui a reçu des millions de dollars de financement de la part d'Alphabet, la société mère de Google, et de Nvidia, le principal fournisseur de puces destinées à la formation de l'IA.

Lorsque le cofondateur de Runway, Anastasis Germanidis, a été interrogé en juin sur l'origine des données de formations de Gen-3, il n'a pas donné une réponse claire. « Nous avons une équipe de recherche interne qui supervise toutes nos formations et nous utilisons des ensembles de données internes pour former nos modèles », a déclaré Germanidis. Mais une feuille de calcul interne ayant fait l'objet de fuite a révélé que Runway a utilisé illégalement des milliers de vidéos YouTube pour l'occasion. En outre, le rapport ajoute que l'ensemble de données de formation de Gen-3 (lancé en juin) comprend également des versions de films piratés.

Sora d'OpenAI est capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles

En février, OpenAI a également lancé sa version, baptisée Sora. Selon ses déclarations, Sora génère des vidéos avec un réalisme inédit et des détails précis. « Sora est capable de créer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle peut comprendre comment les objets existent dans le monde physique, ainsi qu'interpréter avec précision les accessoires et générer des personnages convaincants qui expriment des émotions vibrantes ». OpenAI a déclaré que pour l'instant, Sora ne peut générer que des séquences vidéo qui durent au plus une minute.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Introducing Sora, our text-to-video model.<br><br>Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. <a href="https://t.co/7j2JN27M3W">https://t.co/7j2JN27M3W</a><br><br>Prompt: “Beautiful, snowy… <a href="https://t.co/ruTEWn87vf">pic.twitter.com/ruTEWn87vf</a></p>— OpenAI (@OpenAI) <a href="https://twitter.com/OpenAI/status/1758192957386342435?ref_src=twsrc%5Etfw">February 15, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Google travaille sur Lumiere, son IA qui génère des vidéos réalistes

En janvier, Google a dévoilé les capacités de son IA Lumiere dans une vidéo publiée sur YouTube ainsi que sur un site présentant ce projet de recherche. On y voit des animations créées de toutes pièces, ainsi que l’illustration du concept consistant à générer plusieurs vidéos à partir du style d’une image de référence. La firme de Mountain View explique que cette nouvelle intelligence artificielle repose sur un mécanisme inédit chargé de traiter les échelles spatio-temporelles, offrant des rendus aux mouvements réalistes pour l'œil humain.

La technologie de Google repose sur un modèle d’IA baptisée Space-Time-U-Net (STUNet) pouvant comprendre où se situent les éléments d’une vidéo et comment ceux-ci se déplacent et changent. Elle peut donc générer une première image avant de créer des mouvements en se basant sur les lieux approximatifs où se dirigent les éléments.

Toutefois, Meta affirme que Movie Gen « est supérieur à des modèles similaires de l'industrie lorsque sa production est évaluée par des humains ».

La nouvelle avant-garde des deepfakes vidéo

Meta appelle l'une des principales caractéristiques de Movie Gen « création vidéo personnalisée », mais il y a un autre nom pour cela qui existe depuis 2017 : deepfakes. La technologie des deepfakes a suscité l'inquiétude de certains experts car elle pourrait être utilisée pour simuler des séquences de caméra authentiques, faisant apparaître des personnes comme ayant fait des choses qu'elles n'ont pas réellement faites.

Une vidéo deepfake de Movie Gen avec l'invitation : « Réalise une jolie vidéo selfie d'un homme et de son chien. L'homme porte une chemise noire. Le chien est un chiot beagle. L'arrière-plan est un patio, rempli d'arbres. L'homme a un grand sourire, alors qu'il essaie de prendre le selfie parfait avec son chien. L'éclairage est chaud. La photo source originale se trouve dans le coin supérieur droit. La vidéo de rendu est disponible plus bas

Dans ce cas, la création d'un deepfake avec Movie Gen semble aussi simple que de fournir une seule image d'entrée d'une personne, accompagnée d'un texte décrivant ce que vous voulez qu'elle fasse ou l'endroit où vous voulez qu'elle se trouve dans la vidéo résultante. Le système génère ensuite une vidéo mettant en scène cette personne, en s'efforçant de préserver son identité et ses mouvements tout en incorporant les détails de l'invite.

Cette technologie pourrait être utilisée de multiples façons, notamment pour créer des vidéos humiliantes, mettre des personnes dans de fausses situations compromettantes, fabriquer un contexte historique ou générer de la pornographie vidéo truquée. Elle nous rapproche d'une singularité culturelle où la vérité et la fiction dans les médias sont impossibles à distinguer sans un contexte plus approfondi, grâce à la synthèse fluide et éventuellement en temps réel des médias par l'IA.

En avril, Microsoft a présenté un modèle appelé VASA-1 capable de créer une vidéo photoréaliste d'une personne parlant à partir d'une seule photo et d'une seule piste audio, mais Movie Gen va plus loin en plaçant une personne simulée dans une scène vidéo, générée par l'IA ou autre. Movie Gen ne semble toutefois pas encore pouvoir générer ou synchroniser la parole.

Montage et synthèse sonore

Meta a également présenté un composant d'édition vidéo de Movie Gen, qui permet d'apporter des modifications précises à des vidéos existantes sur la base d'instructions textuelles. Il peut effectuer des modifications localisées telles que l'ajout ou la suppression d'éléments, ainsi que des changements globaux tels que la modification de l'arrière-plan ou du style général.

Par ailleurs, Meta apporte la synthèse sonore à la vidéo IA grâce à un modèle de génération audio distinct capable de produire des sons ambiants, des effets sonores et une musique de fond instrumentale synchronisée avec le contenu vidéo à partir d'invites textuelles. L'entreprise affirme que ce modèle peut générer du son pour des vidéos de n'importe quelle longueur, en conservant un son cohérent tout au long de la vidéo.

Conclusion

Malgré ces avancées, Meta reconnaît que les modèles actuels ont des limites. L'entreprise prévoit d'accélérer le temps de génération des vidéos et d'améliorer la qualité globale en augmentant encore l'échelle des modèles. Vous pouvez en savoir plus sur le fonctionnement des modèles Movie Gen dans un document de recherche que Meta a également publié.

Meta prévoit également de collaborer avec les cinéastes et les créateurs afin d'intégrer leurs commentaires dans les futures versions du modèle. Cependant, après les avertissements du syndicat d'acteurs SAG-AFTRA l'année dernière et les réactions divergentes de certains professionnels de l'industrie à l'égard de la synthèse vidéo, nous pouvons imaginer que ces réactions ne seront pas toutes positives.

Sources : Meta (1, 2), Google, les dangers des Deepfake, l'IA menace de réécrire l'histoire, voici comment la protéger

Et vous ?

Comment pensez-vous que Movie Gen pourrait transformer l’industrie du cinéma et de la télévision ? Les deepfakes pourraient-ils remplacer les acteurs humains dans certains rôles ?

Quelles mesures de réglementation devraient être mises en place pour encadrer l’utilisation des deepfakes ?

Pensez-vous que les entreprises technologiques comme Meta ont une responsabilité particulière dans la prévention des abus de cette technologie ?

Comment Movie Gen pourrait-il être utilisé de manière créative dans des domaines autres que le divertissement, comme l’éducation ou la publicité ?

Voyez-vous des opportunités pour les artistes et les créateurs de contenu d’utiliser cette technologie pour repousser les limites de leur art ?

Quels sont les risques potentiels pour la vie privée avec la prolifération des deepfakes ? Comment les utilisateurs peuvent-ils se protéger contre les deepfakes malveillants ?

Comment pouvons-nous développer des outils pour vérifier l’authenticité des vidéos à l’ère des deepfakes ? Pensez-vous que la confiance du public dans les médias visuels pourrait être affectée par cette technologie ?

Voir aussi :

Meta confirme qu'il entraîne son IA sur les images et vidéos analysées par l'IA de vos lunettes intelligentes Ray-Ban en plus de vos données privées sur Instagram et Facebook.

Vous avez lu gratuitement 6 654 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d'une seule image

Ou de modifier une vidéo existante, lui ajoutant des éléments visuels ou sonores

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d'une seule image Ou de modifier une vidéo existante, lui ajoutant des éléments visuels ou sonores

Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d'une seule image

Ou de modifier une vidéo existante, lui ajoutant des éléments visuels ou sonores