![](https://www.developpez.com/images/logos/intelligence-artificielle2.png)
L'inquiétude autour des deepfakes grandit depuis un certain temps. Une étude en mai 2024 montrait que les deepfakes se classent désormais au deuxième rang des incidents de sécurité de l'information les plus courants pour les entreprises britanniques et que plus d'un tiers des organisations en ont fait l'expérience. Pourtant, les développeurs d'intelligence artificielle (IA) ne cessent de sortir des modèles de pointe qui pourraient favoriser les deepfakes.
Récemment, ce sont les chercheurs de ByteDance qui ont mis au point un système d'IA capable de transformer une simple photo en vidéos réalistes de personnes parlant, chantant et bougeant naturellement. Pour rappel, ByteDance est une société chinoise de technologie Internet notamment connu par les applications de partage de vidéos TikTok et Douyin. L'entreprise est également à l'origine de la plateforme d'actualités Toutiao ou de l'application de montage vidéo CapCut et possède une branche dédiée au cloud computing et à l'IA.
Le nouveau système, appelé OmniHuman, génère des vidéos du corps entier qui montrent des personnes faisant des gestes et des mouvements correspondant à leur discours, surpassant ainsi les modèles d'IA précédents qui ne pouvaient animer que les visages ou la partie supérieure des corps. "L'animation humaine de bout en bout a connu des avancées notables ces dernières années", selon les chercheurs de ByteDance, ajoutant "cependant, les méthodes existantes ont encore du mal à s'adapter aux modèles de génération de vidéos générales, ce qui limite leur potentiel dans les applications réelles".
Les chercheurs déclarent pour la présentation d'OmniHuman-1 :
L'animation humaine de bout en bout, telle que la génération d'humains parlants pilotés par le son, a connu des avancées notables au cours des dernières années. Cependant, les méthodes existantes ont encore du mal à s'adapter aux grands modèles généraux de génération vidéo, ce qui limite leur potentiel dans les applications réelles. Dans cet article, nous proposons OmniHuman, un cadre basé sur un transformateur de diffusion qui permet d'augmenter la taille des données en intégrant des conditions liées au mouvement dans la phase d'apprentissage.
À cette fin, nous introduisons deux principes d'apprentissage pour ces conditions mixtes, ainsi que l'architecture de modèle et la stratégie d'inférence correspondantes. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvements à partir de données, ce qui permet en fin de compte de générer des vidéos humaines très réalistes. Plus important encore, OmniHuman prend en charge différents types de portraits (visage en gros plan, portrait, demi-corps, corps entier), supporte à la fois la parole et le chant, gère les interactions homme-objet et les poses corporelles difficiles, et s'adapte à différents styles d'images.
Par rapport aux méthodes audio de bout en bout existantes, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande souplesse dans les entrées. Il prend également en charge de multiples modalités de conduite (signaux de conduite audio, vidéo et combinés).
À cette fin, nous introduisons deux principes d'apprentissage pour ces conditions mixtes, ainsi que l'architecture de modèle et la stratégie d'inférence correspondantes. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvements à partir de données, ce qui permet en fin de compte de générer des vidéos humaines très réalistes. Plus important encore, OmniHuman prend en charge différents types de portraits (visage en gros plan, portrait, demi-corps, corps entier), supporte à la fois la parole et le chant, gère les interactions homme-objet et les poses corporelles difficiles, et s'adapte à différents styles d'images.
Par rapport aux méthodes audio de bout en bout existantes, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande souplesse dans les entrées. Il prend également en charge de multiples modalités de conduite (signaux de conduite audio, vidéo et combinés).
Processus de formation d'OmniHuman-1
L'équipe a formé OmniHuman sur plus de 18 700 heures de données vidéo humaines en utilisant une nouvelle approche qui combine plusieurs types d'entrées : texte, audio et mouvements du corps. Cette stratégie de formation "omni-conditions" permet à l'IA d'apprendre à partir d'ensembles de données beaucoup plus vastes et diversifiés que les méthodes précédentes. "Notre principale idée est que l'incorporation de signaux de conditionnement multiples, tels que le texte, l'audio et la pose, pendant la formation peut réduire considérablement le gaspillage de données", a expliqué l'équipe de recherche.
Cette technologie marque une avancée significative dans le domaine des médias générés par l'IA, en démontrant des capacités qui vont de la création de vidéos de personnes prononçant des discours à la représentation de sujets jouant d'un instrument de musique. Lors des tests, OmniHuman a surpassé les systèmes existants sur de nombreux critères de qualité.
Les chercheurs affirment notamment :
Nous proposons OmniHuman, un cadre de génération de vidéos humaines de bout en bout, conditionné par la multimodalité, qui génère des vidéos humaines basées sur une image unique et des signaux de mouvement (par exemple, audio, vidéo, ou les deux). OmniHuman utilise une stratégie de formation de données mixtes avec un conditionnement de mouvement multimodal, tirant parti de l'évolutivité des données mixtes pour surmonter la pénurie de données de haute qualité à laquelle sont confrontées les méthodes précédentes.
Il surpasse de manière significative les approches existantes, produisant des vidéos humaines très réalistes à partir de signaux faibles, notamment audio. OmniHuman prend en charge les images de tous les formats (portraits, demi-corps ou corps entier), ce qui permet d'obtenir des résultats réalistes et de grande qualité dans divers scénarios.
Il surpasse de manière significative les approches existantes, produisant des vidéos humaines très réalistes à partir de signaux faibles, notamment audio. OmniHuman prend en charge les images de tous les formats (portraits, demi-corps ou corps entier), ce qui permet d'obtenir des résultats réalistes et de grande qualité dans divers scénarios.
Evaluation du modèle
Ce développement intervient dans un contexte d'intensification de la concurrence dans le domaine de la génération de vidéos par l'IA, avec des entreprises telles que Google, Meta et Microsoft qui cherchent à développer des technologies similaires. La percée de ByteDance pourrait donner à son application de médias sociaux TikTok un avantage dans ce domaine en pleine évolution. Les experts du secteur affirment que cette technologie pourrait transformer la production de divertissement, la création de contenu éducatif et les communications numériques. Toutefois, elle soulève également des inquiétudes quant à une éventuelle utilisation abusive dans la création de médias synthétiques à des fins trompeuses.
Pour avoir une idée du danger de cette nouvelle technologie, l'état actuelle des deepfakes par IA a déjà causé des millions de dollars d'escroquerie. Par exemple, un employé du secteur financier a versé 25 millions de dollars à des escrocs qui se faisaient passer pour le directeur financier de son entreprise grâce à la technologie du deepfake lors d’un appel vidéo. L’arnaque élaborée a consisté à faire croire à l’employé qu’il participait à un appel vidéo avec plusieurs autres membres du personnel, mais tous étaient en fait des créations de deepfake.
Source : "OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models"
Et vous ?
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
Voir aussi :
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)