Les récentes avancées en matière d'IA ont entraîné des défis importants, en particulier avec la montée des deepfake. Le projet Deep Live Cam vient rajouter de la complexité à la situation puisqu'il permet de changer de visage en temps réel grâce à l'IA, une fonctionnalité qui peut être utilisée lors d'appels vidéo.
Le projet de logiciel Deep-Live-Cam est en cours depuis la fin de l'année dernière, mais des vidéos d'exemple montrant une personne avec le visage d'Elon Musk et le candidat républicain à la vice-présidence J.D. Vance (entre autres) en temps réel ont fait le tour du web. L'avalanche d'attention a brièvement fait bondir le projet open source à la première place de la liste des dépôts en vogue de GitHub, où il peut être téléchargé gratuitement.
« Il est étrange de constater que toutes les innovations majeures issues de la technologie ces derniers temps relèvent de l'arbre de compétences de la fraude », a écrit l'illustrateur Corey Brickley dans un fil de discussion X réagissant à un exemple de vidéo de Deep-Live-Cam en action. Dans un autre message, il a écrit : « N'oubliez pas d'établir des mots de code avec vos parents », faisant référence au potentiel d'utilisation d'outils similaires pour la tromperie à distance et au concept d'utilisation d'un mot sûr, partagé par les amis et la famille, pour établir votre véritable identité.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Nice remember to establish code words with your parents everyone <a href="https://t.co/9hWLxMgtKF">https://t.co/9hWLxMgtKF</a></p>— Corey Brickley Illustration. Justice for Palestine (@CoreyBrickley) <a href="https://twitter.com/CoreyBrickley/status/1823234384876515554?ref_src=twsrc%5Etfw">August 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
La technologie d'échange de visages n'est pas nouvelle. Le terme « deepfake » lui-même est issu de la combinaison des termes « deep learning » et « fake ». À l'époque, la technologie était coûteuse et lente et ne fonctionnait pas en temps réel. Toutefois, grâce à des projets tels que Deep-Live-Cam, il est de plus en plus facile pour quiconque d'utiliser cette technologie à la maison avec un PC ordinaire et un logiciel gratuit.
Les dangers des « deepfakes » ne sont pas nouveaux non plus.
Nous pouvons citer le cas d'un employé du secteur financier qui a versé 25 millions de dollars à des escrocs qui se faisaient passer pour le directeur financier de son entreprise grâce à la technologie du deepfake lors d’un appel vidéo, selon la police de Hong Kong. L’arnaque élaborée a consisté à faire croire à l’employé qu’il participait à un appel vidéo avec plusieurs autres membres du personnel, mais tous étaient en fait des créations de deepfake, a déclaré la police de Hong Kong lors d’un briefing. « Dans la conférence vidéo à plusieurs personnes, il s’avère que tout le monde (qu’il a vu) était faux », a déclaré le surintendant principal Baron Chan Shun-ching à la radio publique RTHK.
Avec les innovations dans le clonage de la voix, le cocktail pourrait être explosif
Il y a quelques années, les voix synthétiques semblaient avoir atteint un plafond de verre.
Reproduire une voix spécifique est encore plus difficile : non seulement l'outil devait avoir une voix humaine, mais cette voix devait également ressembler à la votre. Ces dernières années, cependant, les entreprises dans ces domaines ont commencé à bénéficier de plus d'argent, de plus de données (surtout des tonnes d'enregistrements vocaux en ligne) et de percées dans les logiciels sous-jacent utilisés pour générer la parole.
En 2019, ces avancées ont porté leurs fruits : une société d'IA basée à Toronto, Dessa, a cloné la voix du podcasteur Joe Rogan. (À l'époque, Rogan a réagi avec « stupeur » sur Instagram, déclarant : « L'avenir va être vraiment extrêmement bizarre »). Mais Dessa a eu besoin de beaucoup d'argent et de centaines d'heures de la voix très disponible de Rogan pour fabriquer son produit. Leur succès a été ponctuel.
En 2022, cependant, une société new-yorkaise appelée ElevenLabs a dévoilé un service qui produit rapidement des clones impressionnants de pratiquement n'importe quelle voix ; des sons respiratoires ont été incorporés et plus de deux douzaines de langues ont pu être clonées. La technologie d'ElevenLabs est désormais largement disponible. Il suffit de naviguer vers une application, de payer cinq dollars par mois, de lui donner quarante-cinq secondes de la voix de quelqu'un et de cloner cette voix. L'entreprise est aujourd'hui évaluée à plus d'un milliard de dollars, et le reste de la Big Tech la suit de près.
Mais le plus souvent, la technologie semble être utilisée à des fins malveillantes, comme la fraude. Cela est devenu plus facile depuis que TikTok, YouTube et Instagram stockent d'innombrables vidéos de personnes ordinaires en train de parler. « C'est simple », explique Hany Farid, qui enseigne l'IA générative et la manipulation des médias à l'Université de Californie à Berkeley. Vous prenez trente ou soixante secondes de la voix d'un enfant et vous vous connectez à ElevenLabs, et très vite, grand-mère reçoit un appel avec la voix de son petit-fils qui dit : « Grand-mère, j'ai des problèmes, j'ai eu un accident ».
Récemment, un couple de Brooklyn a vécu une expérience terrifiante lorsque des escrocs ont utilisé l’intelligence artificielle pour cloner la voix de leurs proches et simuler une situation de rançon. En pleine nuit, Robin, une femme dans la trentaine, a été réveillée par un appel de sa belle-mère, Mona, qui semblait être en détresse. La voix paniquée de Mona répétait sans cesse « Je ne peux pas le faire, je ne peux pas le faire ». Peu après, le mari de Robin, Steve, a pris l’appel et s’est retrouvé confronté à un homme affirmant détenir sa mère sous la menace d’une arme et exigeant de l’argent.
On peut s'attendre à ce que les cas de fraude vidéo à distance se multiplient grâce à des logiciels de contrefaçon en temps réel facilement disponibles, et ce ne sont pas seulement les célébrités ou les hommes politiques qui pourraient être concernés.
En utilisant un logiciel d'échange de visages, quelqu'un pourrait prendre une photo de vous sur les médias sociaux et se faire passer pour vous auprès d'une personne qui n'est pas totalement familiarisée avec votre apparence et votre comportement, compte tenu de la nécessité actuelle d'imiter des manières, une voix, des cheveux, des vêtements et une structure corporelle similaires. Des techniques de clonage de ces aspects de l'apparence et de la voix existent également et ce dernier aspect a fait un bon prodigieux en avant.
Comment ça marche ?
Comme de nombreux projets GitHub à code source ouvert, Deep-Live-Cam regroupe plusieurs logiciels existants sous une nouvelle interface (il s'agit lui-même d'une branche d'un projet antérieur appelé « roop »). Il détecte d'abord les visages dans les images source et cible (comme une image de vidéo en direct). Il utilise ensuite un modèle d'IA pré-entraîné appelé « inswapper » pour effectuer l'échange de visages et un autre modèle appelé GFPGAN pour améliorer la qualité des visages échangés en rehaussant les détails et en corrigeant les artefacts qui se produisent au cours du processus d'échange de visages.
Le modèle inswapper, développé par un projet appelé InsightFace, peut deviner l'apparence d'une personne (sur une photo fournie) en utilisant différentes expressions et sous différents angles, car il a été entraîné sur un vaste ensemble de données contenant des millions d'images faciales de milliers de personnes capturées sous différents angles, dans différentes conditions d'éclairage et avec des expressions diverses.
Au cours de l'entraînement, le réseau neuronal sous-jacent au modèle inswapper a développé une « compréhension » des structures faciales et de leur dynamique dans diverses conditions, notamment en apprenant à déduire la structure tridimensionnelle d'un visage à partir d'une image bidimensionnelle. Il est également devenu capable de séparer les caractéristiques propres à l'identité, qui restent constantes sur différentes images de la même personne, des caractéristiques propres à la pose, qui changent en fonction de l'angle et de l'expression. Cette séparation permet au modèle de générer de nouvelles images de visages qui combinent l'identité d'un visage avec la pose, l'expression et l'éclairage d'un autre.
Deep-Live-Cam est loin d'être le seul projet de logiciel d'échange de visages
Un autre projet GitHub, appelé facefusion, utilise le même modèle d'IA de substitution de visage avec une interface différente. La plupart d'entre eux s'appuient fortement sur un réseau imbriqué de bibliothèques Python et d'apprentissage profond comme PyTorch, de sorte que Deep-Live-Cam n'est pas encore aussi facile à installer qu'un simple clic. Mais il est probable que ce type de capacité d'échange de visages devienne encore plus facile à installer avec le temps et que sa qualité s'améliore au fur et à mesure que les gens itèrent et construisent sur le travail des autres dans l'espace de développement de l'IA open source.
Conclusion
Il est important de noter que la création d’un deepfake sans le consentement de la personne concernée est illégale et peut entraîner des sanctions sévères. Les deepfakes soulèvent des inquiétudes quant à leur potentiel de propagation de fausses informations et de scénarios trompeurs. L'utilisation de Deel-Live-Cam et d'autres applications de simulation d'IA en temps réel soulève donc de sérieuses inquiétudes en matière de protection de la vie privée et de sécurité. Imaginez qu'une photo de vous puisse être prise sur Internet et utilisée à des fins de fraude, de tromperie et d'autres activités malveillantes sans votre autorisation.
Source : Deep Live Cam (1, 2)
Et vous ?
Que pensez-vous de Deep-Live-Cam ? Vous êtes-vous déjà servi de cet outil ou d'un outil similaire ? Dans quel but ? Qu'en avez-vous pensé ?
Jusqu’où devrions-nous autoriser l’utilisation des deepfakes ? Devrions-nous les réglementer davantage ou les laisser se développer librement ?
Quelles sont les implications des deepfakes ? Comment pouvons-nous protéger la vie privée des individus tout en permettant l’innovation technologique ?
Les deepfakes peuvent-ils être utilisés à des fins positives ? Par exemple, dans l’industrie du divertissement ou pour la préservation de la mémoire historique ?
Comment pouvons-nous éduquer le public sur la détection des deepfakes ? Quelles sont les meilleures pratiques pour éviter d’être trompé par des vidéos manipulées ?
Quel rôle les entreprises technologiques devraient-elles jouer dans la lutte contre les deepfakes ? Devraient-elles investir davantage dans la recherche sur la détection ou adopter des politiques plus strictes ?