Deepfake : des chercheurs présentent un logiciel qui permet d'éditer le discours d'une vidéo
Et faire dire au sujet ce que vous voulez

59PARTAGES

13  0 
Un deepfake est une technique de synthèse d'images basée sur l'intelligence artificielle. Il est utilisé pour combiner et superposer des images et des vidéos existantes afin de les manipuler à l’aide de l’apprentissage automatique. La technologie est en développement et des chercheurs continuent d’améliorer les méthodes qui contribueront certainement à révolutionner certains secteurs d’activité mais qui ne manqueront, peut-être, pas de se retrouver, comme une arme, entre les mains des personnes malveillantes.

Dans le dernier exemple en date traitant de la technologie deepfake, des chercheurs ont présenté un nouveau logiciel qui utilise l’apprentissage automatique pour permettre aux utilisateurs de modifier la transcription du texte d’une vidéo afin d’ajouter, de supprimer ou de modifier les mots sortant de la bouche de quelqu'un.

Le travail a été effectué par des scientifiques de l'Université de Stanford, de la Max Planck Institute for Informatics, de l'Université de Princeton et d'Adobe Research. Il montre que notre capacité à éditer ce que les gens disent dans des vidéos et à créer des faux réalistes devient chaque jour plus facile.

Vous pouvez voir ci-dessous un certain nombre d'exemples de sortie du système. Dans le premier, nous voyons une femme dire « qu’Apple a clôturé le marché avec des actions à 191,45 dollars ». L’orateur explique alors qu’ils ont remplacé 91,4 par 82,2. La vidéo modifiée montre la même femme qui dit « qu’Apple a clôturé le marché avec des actions à 182,25 dollars » avec un changement dans la façon de bouger les lèvres.

Ce travail est juste au stade de la recherche en ce moment et n’est pas disponible en tant que logiciel grand public, mais il ne faudra probablement pas longtemps avant que des services similaires ne deviennent publics. Adobe, par exemple, a déjà partagé des détails sur le prototype de logiciel appelé VoCo, qui permet aux utilisateurs de modifier des enregistrements de parole aussi facilement qu’une image, et qui a été utilisé dans cette recherche.


Pour créer les contrefaçons vidéo, les scientifiques combinent un certain nombre de techniques. Tout d'abord, ils numérisent la vidéo cible pour isoler les phonèmes parlés par le sujet. (ce sont des élément sonore du langage parlé, considéré comme une unité distinctive, par exemple le phonème /i/ dans il ou le phonème /p/ : père). Ils associent ensuite ces phonèmes aux visèmes correspondants, qui sont les expressions faciales accompagnant chaque son. Enfin, ils créent un modèle 3D de la moitié inférieure du visage du sujet en utilisant la vidéo cible.

Lorsque quelqu'un édite une transcription textuelle de la vidéo, le logiciel combine toutes les données collectées (phonèmes, visèmes et modèle de visage 3D) pour créer un nouveau métrage qui correspond au texte saisi. Par la suite, cet ensemble est collé sur la vidéo source pour créer le résultat final.

Lors de tests dans lesquels les vidéos éditées par l’utilisation du deepfake ont été montrées à un groupe de 138 volontaires, environ 60% des participants ont pensé que les modifications étaient réelles. Les chercheurs ont noté que cela pourrait être dû au fait que les personnes concernées ont été informées que leurs réponses étaient utilisées pour une étude sur le montage vidéo, ce qui signifie qu’elles étaient prêtes à rechercher des contrefaçons.


Comme toujours, il est important de se rappeler que ce que cette technologie peut faire est limité

Les algorithmes ici ne fonctionnent que sur des vidéos où on ne voit que la tête de la personne qui parle, par exemple, et nécessitent 40 minutes de données en entrée. Le discours édité semble ne pas devoir être trop éloigné du matériel source. Les chercheurs ont alors demandé aux sujets d’enregistrer un nouveau son pour correspondre aux changements, en utilisant l’IA pour générer la vidéo. (Ceci est dû au fait que les contrefaçons audio sont parfois médiocres, bien que la qualité s'améliore nettement). D’ailleurs, pour les vidéos générées par l’IA, 80% du groupe de participants ont pensé qu’elles étaient réelles.

Les chercheurs ont également noté qu’ils ne pouvaient pas encore changer l’ambiance ou le ton de la voix de l’orateur, car cela entraînerait « des résultats étranges ». Et que toute occlusion du visage, par exemple. si quelqu'un agite la main en parlant, va complètement perdre l'algorithme.

La technologie n’est donc pas parfaite, mais ces types de limitations figurent toujours dans les premières étapes de la recherche et il est presque garanti qu’elles seront surmontées à temps. Cela signifie que la société dans son ensemble devra bientôt s'attaquer au concept sous-jacent de cette recherche: l'arrivée d'un logiciel qui permet à quiconque d'éditer ce que les gens disent dans des vidéos sans formation technique.

Les inconvénients potentiels de cette technologie sont extrêmement préoccupants et les chercheurs dans ce domaine sont souvent critiqués pour ne pas avoir pris en compte le potentiel d’utilisation abusive de leurs travaux. Les scientifiques impliqués dans ce projet précis ont déclaré avoir pris en compte ces problèmes.


Dans un billet de blog accompagnant l'article, ils écrivent : « Bien que les méthodes de manipulation d'images et de vidéos soient aussi anciennes que les médias eux-mêmes, les risques d'abus sont accrus lorsqu'ils sont appliqués à un mode de communication qui est parfois considéré comme une preuve de pensée et les intentions. Nous reconnaissons que de mauvais acteurs pourraient utiliser de telles technologies pour falsifier des déclarations personnelles et calomnier des personnalités ».

Mais le garde fou qu'ils suggèrent n'est guère réconfortant. Selon eux, pour éviter toute confusion, les vidéos éditées par IA devraient être clairement présentées comme telles, soit par le biais d’un filigrane, soit par le biais d’un contexte (par exemple, un public qui comprend qu’il regarde un film de fiction).

Mais les filigranes sont facilement supprimés et la perte de contexte est l’une des caractéristiques des médias en ligne. Les fake news n’ont pas besoin d’être irréprochables pour avoir un impact non plus. Il suffit de quelques minutes de recherche pour dissiper une foule de fake news traitant de l’actualité, mais cela n’arrête pas pour autant leur propagation, en particulier dans les communautés qui veulent croire de telles messages véhiculés qui correspondent à leurs idées préconçues.

Les chercheurs notent que cette technologie présente également de nombreux avantages. Cela aiderait beaucoup les industries du cinéma et de la télévision, leur permettant de corriger les lignes mal prononcées sans passer par un réenregistrement des images et de créer des doublages sans faille d'acteurs parlant différentes langues.

Mais ces avantages sont-ils suffisant pour contrebalancer les dégâts potentiels ?

Sources : blog des chercheurs, présentation de la recherche (au format PDF)

Et vous ?

Que pensez-vous de la technologie deepfake en général et de cette avancée en particulier ?
Les avantages miroités sont-ils suffisant pour contrebalancer les dégâts potentiels ?
Que pensez-vous de la proposition des chercheurs qui avancent que les vidéos modifiées par l'IA devraient être clairement présentées comme telles ?

Voir aussi :

Le Congrès américain va enquêter sur les deepfakes, alors qu'une fausse vidéo de Pelosi a été visionnée des millions de fois sur les médias sociaux
Des chercheurs créent une IA qui rend facile la création de deepfakes à partir d'une seule image, et les résultats sont dangereusement réalistes
Un sénateur propose un projet de loi prohibant l'utilisation de la technologie deepfake, si elle venait à servir des buts frauduleux
Une vidéo deepfake de Donald Trump diffusée sur une chaine de TV nationale ? L'employé responsable a été licencié

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de Zefling
Membre expert https://www.developpez.com
Le 11/06/2019 à 10:42
Citation Envoyé par Ryu2000 Voir le message
Pour le cinéma c'est génial, ça va permettre de corriger des choses. Il arrive que dans certains films les acteurs disent n'importe quoi parce que les dialogues n'ont pas encore été écrit et c'est bien plus tard qu'ils redoublent la scène avec les vrais dialogues, mais la synchronisation labiale est problématique, avec cette technologie ça pourra être corrigé.
On pourrait aller plus loin et avoir la synchronisation labiale pour les doublages dans d'autres langues.
4  0 
Avatar de AoCannaille
Membre émérite https://www.developpez.com
Le 11/06/2019 à 11:51
Citation Envoyé par Zefling Voir le message
On pourrait aller plus loin et avoir la synchronisation labiale pour les doublages dans d'autres langues.
Sur le papier ça a l'air pas mal, mais vu le malaise visuel de Superman dans Justice League ou la moustache de l'acteur a été enlevé par effet special (car l'acteur était engagé sur une autre prod aprés ou la moustache était obligatoire), j'ai peur du résultat!
2  0 
Avatar de fodger
Membre habitué https://www.developpez.com
Le 11/06/2019 à 14:33
Citation Envoyé par Ryu2000 Voir le message
Pour le cinéma c'est génial, ça va permettre de corriger des choses. Il arrive que dans certains films les acteurs disent n'importe quoi parce que les dialogues n'ont pas encore été écrit et c'est bien plus tard qu'ils redoublent la scène avec les vrais dialogues, mais la synchronisation labiale est problématique, avec cette technologie ça pourra être corrigé.

Cette technologie peut être utilisé pour faire dire n'importe quoi à n'importe qui. (et il n'y aura pas un texte "vidéo réalisé avec trucage".
Par exemple, les USA pourraient faire croire que Kim Jong-un leur déclare la guerre. (pour justifier une opération militaire)

Par contre dans le générique d'un film, on dira que la technologie a été utilisé.
Ben non, ce qui fait le charme d'un film ce sont aussi les erreurs, les improvisations une telle technique va à l'encontre même de ce qu'est le cinéma.
2  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 11/06/2019 à 15:30
Citation Envoyé par fodger Voir le message
Ben non, ce qui fait le charme d'un film ce sont aussi les erreurs
Ouais ok, mais si tu regardes les productions hyper aseptisé, formaté et sans âme comme les blockbusters, il y a pas déjà mal de modifications numériques.
Là le truc c'est qu'on peut réparer une réplique sans retourner une scène.
2  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 14/06/2019 à 22:16
Citation Envoyé par Stéphane le calme Voir le message
Que pensez-vous de la technologie deepfake en général et de cette avancée en particulier ?
Le deepfake en général, c'est cool, ça ouvre plein de porte.
Ce travail en particulier, que c'est un pas de plus dans l'amélioration de ces approches, même si ça reste plus de l'ordre du POC qu'autre chose.

Citation Envoyé par Stéphane le calme Voir le message
Les avantages miroités sont-ils suffisant pour contrebalancer les dégâts potentiels ?
Peu importe : trouver n'est pas l'apanage des chercheurs. Ils ne sont pas des génies sans qui ces technos ne verraient jamais le jour. Ce sont des gens comme tout le monde. Si les chercheurs "de bonne foi" ne travaillaient pas sur ces technos, elles ne seraient tout simplement pas publique. Cela n'empêcherait en rien des acteurs privés de travailler dessus et de les trouver par eux-même, criminels inclus. L'accès publique permet au moins d'informer la population, en incluant les juges, législateurs, etc, ce qui leur permet d'analyser de manière informée. Sans ça, on s'attendrait moins aux usages frauduleux possibles, et donc on se ferait plus facilement avoir. Après, c'est au législateur de faire la loi, et donc d'interdire ou non tel ou tel usage de telle ou telle techno. Ce n'est pas au chercheur à juger pour les autres. Le chercheur doit chercher, ce n'est pas à lui à juger de ce qui est bon d'être cherché ou non. Si je ne suis pas contre une éthique de recherche qui s'interdit certains sujets, cela doit rester de l'ordre de l'exception et se centrer sur ce qui s'affiche clairement comme une recherche centrée sur de mauvais usages.

Citation Envoyé par Stéphane le calme Voir le message
Que pensez-vous de la proposition des chercheurs qui avancent que les vidéos modifiées par l'IA devraient être clairement présentées comme telles ?
Que ça montre qu'ils n'ont :
- soit pas réellement réfléchit à la question, car ce qu'ils proposent ne couvre que les usages "de bonne foi", or la question n'est certainement pas orienté sur ces usages là à la base.
- soit pas d'intérêt à donner une vrai réponse : que le législateur devrait se saisir de cette question et proscrire les usages jugés illégaux.
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 11/06/2019 à 9:26
Citation Envoyé par Stéphane le calme Voir le message
Les avantages miroités sont-ils suffisant pour contrebalancer les dégâts potentiels ?
Pour le cinéma c'est génial, ça va permettre de corriger des choses. Il arrive que dans certains films les acteurs disent n'importe quoi parce que les dialogues n'ont pas encore été écrit et c'est bien plus tard qu'ils redoublent la scène avec les vrais dialogues, mais la synchronisation labiale est problématique, avec cette technologie ça pourra être corrigé.

Citation Envoyé par Stéphane le calme Voir le message
Que pensez-vous de la technologie deepfake en général et de cette avancée en particulier ?
Que pensez-vous de la proposition des chercheurs qui avancent que les vidéos modifiées par l'IA devraient être clairement présentées comme telles ?
Cette technologie peut être utilisé pour faire dire n'importe quoi à n'importe qui. (et il n'y aura pas un texte "vidéo réalisé avec trucage".
Par exemple, les USA pourraient faire croire que Kim Jong-un leur déclare la guerre. (pour justifier une opération militaire)

Par contre dans le générique d'un film, on dira que la technologie a été utilisé.
0  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 11/06/2019 à 12:30
Citation Envoyé par Zefling Voir le message
les doublages dans d'autres langues.
Les gens devraient regarder les films en VO sous-titré.
Les bonnes adaptations sont très rare (et c'est de pire en pire), parfois il arrive qu'une VF soit excellente (Wayne's World, Retour Vers le Futur ) mais ce n'est pas la règle...

Mais ouais cette technologie pourra être utilisé pour améliorer la synchronisation labiale dans les autres langues que celle d'origine.
Ça changerait le travail des équipes de traduction, car elles n'auraient plus à faire en sorte d'écrire un texte qui colle avec le mouvement des lèvres, elles pourraient se concentrer sur la préservation du sens

Cet outil permettra de faire beaucoup de chose rapidement en post production.
On peut par exemple filmer un acteur dans une position pendant 30 secondes et plus tard faire dire n'importe quoi aux images.
0  2 
Contacter le responsable de la rubrique Intelligence artificielle

Partenaire : Hébergement Web