
Les récentes avancées en matière d'IA ont entraîné des défis importants, en particulier avec la montée des deepfake. Le projet Deep Live Cam vient rajouter de la complexité à la situation puisqu'il permet de changer de visage en temps réel grâce à l'IA, une fonctionnalité qui peut être utilisée lors d'appels vidéo.
Le projet de logiciel Deep-Live-Cam est en cours depuis la fin de l'année dernière, mais des vidéos d'exemple montrant une personne avec le visage d'Elon Musk et le candidat républicain à la vice-présidence J.D. Vance (entre autres) en temps réel ont fait le tour du web. L'avalanche d'attention a brièvement fait bondir le projet open source à la première place de la liste des dépôts en vogue de GitHub, où il peut être téléchargé gratuitement.
« Il est étrange de constater que toutes les innovations majeures issues de la technologie ces derniers temps relèvent de l'arbre de compétences de la fraude », a écrit l'illustrateur Corey Brickley dans un fil de discussion X réagissant à un exemple de vidéo de Deep-Live-Cam en action. Dans un autre message, il a écrit : « N'oubliez pas d'établir des mots de code avec vos parents », faisant référence au potentiel d'utilisation d'outils similaires pour la tromperie à distance et au concept d'utilisation d'un mot sûr, partagé par les amis et la famille, pour établir votre véritable identité.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Nice remember to establish code words with your parents everyone <a href="https://t.co/9hWLxMgtKF">https://t.co/9hWLxMgtKF</a></p>— Corey Brickley Illustration. Justice for Palestine (@CoreyBrickley) <a href="https://twitter.com/CoreyBrickley/status/1823234384876515554?ref_src=twsrc%5Etfw">August 13, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
La technologie d'échange de visages n'est pas nouvelle. Le terme « deepfake » lui-même est issu de la combinaison des termes « deep learning » et « fake ». À l'époque, la technologie était coûteuse et lente et ne fonctionnait pas en temps réel. Toutefois, grâce à des projets tels que Deep-Live-Cam, il est de plus en plus facile pour quiconque d'utiliser cette technologie à la maison avec un PC ordinaire et un logiciel gratuit.
Les dangers des « deepfakes » ne sont pas nouveaux non plus.
Nous pouvons citer le cas d'un employé du secteur financier qui a versé 25 millions de dollars à des escrocs qui se faisaient passer pour le directeur financier de son entreprise grâce à la technologie du deepfake lors d’un appel vidéo, selon la police de Hong Kong. L’arnaque élaborée a consisté à faire croire à l’employé qu’il participait à un appel vidéo avec plusieurs autres membres du personnel, mais tous étaient en fait des créations de deepfake, a déclaré la police de Hong Kong lors d’un briefing. « Dans la conférence vidéo à plusieurs personnes, il s’avère que tout le monde (qu’il a vu) était faux », a déclaré le surintendant principal Baron Chan Shun-ching à la radio publique RTHK.
Avec les innovations dans le clonage de la voix, le cocktail pourrait être explosif
Il y a quelques années, les voix synthétiques semblaient avoir atteint un plafond de verre.
Reproduire une voix spécifique est encore plus difficile : non seulement l'outil devait avoir une voix humaine, mais cette voix devait également ressembler à la votre. Ces dernières années, cependant, les entreprises dans ces domaines ont commencé à bénéficier de plus d'argent, de plus de données (surtout des tonnes d'enregistrements vocaux en ligne) et de percées dans les logiciels sous-jacent utilisés pour générer la parole.
En 2019, ces avancées ont porté leurs fruits : une société d'IA basée à Toronto, Dessa, a cloné la voix du podcasteur Joe Rogan. (À l'époque, Rogan a réagi avec « stupeur » sur Instagram, déclarant : « L'avenir va être vraiment extrêmement bizarre »). Mais Dessa a eu besoin de beaucoup d'argent et de centaines d'heures de la voix très disponible de Rogan pour fabriquer son produit. Leur succès a été ponctuel.
En 2022, cependant, une société new-yorkaise appelée ElevenLabs a dévoilé un service qui produit rapidement des clones impressionnants de pratiquement n'importe quelle voix ; des sons respiratoires ont été incorporés et plus de deux douzaines de langues ont pu être clonées. La technologie d'ElevenLabs est désormais largement disponible. Il suffit de naviguer vers une application, de payer cinq dollars par mois, de lui donner quarante-cinq secondes de la voix de quelqu'un et de cloner cette voix. L'entreprise est aujourd'hui évaluée à plus d'un milliard de dollars, et le reste de la Big Tech la suit de près.
Mais le plus souvent, la technologie semble être utilisée à des fins malveillantes, comme la fraude. Cela est devenu plus facile depuis que TikTok, YouTube et Instagram stockent d'innombrables vidéos de personnes ordinaires en train de parler. « C'est simple », explique Hany Farid, qui enseigne l'IA générative et la manipulation des médias à l'Université de Californie à Berkeley. Vous prenez trente ou soixante secondes de la voix d'un enfant et vous vous connectez à ElevenLabs, et très vite, grand-mère reçoit un appel avec la voix de son petit-fils qui dit : « Grand-mère, j'ai des problèmes, j'ai eu un accident ».
Récemment, un couple de Brooklyn a vécu une expérience terrifiante lorsque des escrocs ont utilisé l’intelligence artificielle pour cloner la voix de leurs proches et simuler une situation de rançon. En pleine nuit, Robin, une femme dans la trentaine, a été réveillée par un appel de sa belle-mère, Mona, qui semblait être en détresse. La voix paniquée de Mona répétait sans cesse « Je ne peux pas le faire, je ne peux pas le faire ». Peu après, le mari de Robin, Steve, a pris l’appel et s’est retrouvé confronté à un homme affirmant détenir sa mère sous la menace d’une arme et exigeant de l’argent.
On peut s'attendre à ce que les cas de fraude vidéo à distance se multiplient grâce à des logiciels de contrefaçon en temps réel facilement disponibles, et ce ne sont pas seulement les célébrités ou les hommes politiques qui pourraient être concernés.
En utilisant un logiciel d'échange de visages, quelqu'un pourrait prendre une photo de vous sur les médias sociaux et se faire passer pour vous auprès d'une personne qui n'est pas totalement familiarisée avec votre apparence et votre comportement, compte tenu de la nécessité actuelle d'imiter des manières, une voix, des cheveux, des vêtements et une structure corporelle similaires. Des techniques de clonage de ces aspects de l'apparence et de la voix existent également et ce dernier aspect a fait un bon prodigieux en avant.
Comment ça marche ?
Comme de nombreux projets GitHub à code source ouvert, Deep-Live-Cam regroupe plusieurs logiciels existants sous une nouvelle interface (il s'agit lui-même d'une branche d'un projet antérieur appelé « roop »). Il détecte d'abord les visages dans les images source et cible (comme une image de vidéo en direct). Il utilise ensuite un modèle d'IA pré-entraîné appelé « inswapper » pour effectuer l'échange de visages et un autre modèle appelé GFPGAN pour améliorer la qualité des visages échangés en rehaussant les détails et en corrigeant les artefacts qui se produisent au cours du processus d'échange de visages.
Le modèle inswapper, développé par un projet appelé InsightFace, peut deviner l'apparence d'une personne (sur une photo fournie)...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.