Alors que la lutte contre la désinformation a été présentée comme acharnée ces dernières années, elle pourrait s'avérer une partie de plaisir comparativement à ce à quoi la communauté pourrait faire face à l'avenir. L'IA générative, une catégorie de nouveaux outils d'IA dans laquelle on peut classer les IA de synthèse vocale et les IA de clonage de voix, semble avoir introduit une nouvelle forme de menace qui inquiète sérieusement les experts. L'utilisation de ces outils est très facile et presque gratuite, et n'importe quel individu peut les utiliser pour synthétiser ou cloner une voix en l'espace de quelques secondes. Le résultat obtenu est extrêmement convaincant.
Dans le cas de la vidéo trafiquée où Joe Biden attaquait les personnes transgenres, les experts en criminalistique numérique estiment qu'elle a été conçue avec l'IA de la société ElevenLabs. Basée au Royaume-Uni, ElevenLabs est une startup d'IA fondées en 2022 par Piotr Dabkowski, ancien ingénieur en apprentissage automatique (ML) chez Google, et Mati Staniszewski, ancien spécialiste en déploiement chez Palantir. Le mois dernier, la société a lancé la phase bêta de la phase bêta Prime Voice, un outil qui permet aux utilisateurs de générer un son réaliste de la voix de n'importe quelle personne à partir d'un échantillon audio et d'une invite textuelle.
Si le clip mettant en scène le président Joe Biden n'a peut-être pas réussi à tromper la plupart des utilisateurs cette fois-ci, il montre à quel point il est désormais facile pour les gens de générer des vidéos "deepfake" haineuses et de désinformation qui pourraient causer des dommages dans le monde réel. « Des outils comme celui-ci vont essentiellement ajouter de l'huile sur le feu. Le monstre est déjà en liberté », déplore Hafiz Malik, professeur d'ingénierie électrique et informatique à l'université du Michigan, qui se concentre sur la criminalistique multimédia. L'IA a été détournée de son usage initial, laissant la startup dans une situation délicate.
ElevenLabs affirme que son IA a été développée pour doubler des fichiers audio dans différentes langues pour des films, des livres audio et des jeux afin de préserver la voix et les émotions de l'orateur. Mais c'est sans compter sur la bonne volonté des membres du forum 4chan. Quelques jours après le lancement de l'IA, ils se sont saisis de l'IA d'ElevenLabs pour simuler des voix de célébrités débitant des propos racistes et homophobes. Ils ont partagé un échantillon audio généré par l'IA d'Hillary Clinton lisant le même texte transphobe que dans le clip de Biden et de faux clips audio de Bill Gates disant que le vaccin contre la Covid-19 provoque le sida.
Dans un autre échantillon audio, on peut entendre la voix de l'actrice Emma Watson lisant le manifeste "Mein Kampf" d'Hitler. Dans un autre exemple, une personne disant "les droits des personnes transgenres sont des droits de l'homme" se fait étrangler. Face à ces cas répétés, ElevenLabs a indiqué sur Twitter qu'elle constatait "un nombre croissant de cas d'utilisation abusive du clonage vocal" et a annoncé qu'elle étudiait actuellement des mesures de protection pour limiter les abus. L'une des premières étapes du plan d'action d'ElevenLabs a été de rendre la fonctionnalité disponible uniquement pour ceux qui fournissent des informations de paiement.
Lors du lancement initial, les utilisateurs anonymes ont pu accéder gratuitement à l'outil de clonage vocal. ElevenLabs affirme également qu'en cas de problème, elle peut remonter jusqu'au créateur de la voix générée. Cependant, les experts affirment que ces dispositions sont insuffisantes et pourront être facilement contournées. Ils affirment également que même la possibilité de retrouver les créateurs n'atténuera pas vraiment le préjudice causé par l'outil de clonage de voix ElevenLabs. « Le mal est déjà fait », a déclaré Hany Farid, professeur à l'université de Californie à Berkeley, qui s'intéresse à la criminalistique numérique et à la désinformation.
Par exemple, Hany Farid a déclaré que des acteurs malveillants pourraient faire bouger le marché boursier avec un faux enregistrement audio d'un PDG affirmant que les bénéfices sont en baisse. Il y a également un clip truqué et faire croire que Biden avait déclaré que les États-Unis lançaient une attaque nucléaire contre la Russie. Selon les experts, même en retrouvant la personne qui est à l'origine de ces matériels, il serait trop tard pour réparer les torts. En outre, des logiciels gratuits et libres dotés des mêmes capacités sont également apparus en ligne, ce qui signifie que les murs payants des outils commerciaux ne sont pas un obstacle.
« La question est de savoir où pointer le doigt et comment remettre le génie dans la bouteille. Nous ne pouvons pas le faire », a déclaré Malik. Par ailleurs, une autre source de préoccupations pour les experts est la "vraisemblance" que ces nouveaux deepfakes apportent. Lorsque les deepfakes ont fait les gros titres il y a environ cinq ans, ils étaient assez faciles à détecter puisque le sujet ne clignait pas des yeux et que l'audio utilisait une voix semblable à celle d'un robot. Ce n'est plus le cas, car les outils deviennent de plus en plus sophistiqués. La détection nécessite de plus en plus de temps, ce qui fait que plus de personnes tombent dans le panneau.
La vidéo modifiée de Biden faisant des commentaires désobligeants sur les transsexuels, par exemple, combinait l'audio généré par l'IA d'ElevenLabs avec un vrai clip du président, tiré d'une émission en direct de CNN du 25 janvier annonçant l'envoi de chars américains en Ukraine. La bouche du président Joe Biden a été manipulée dans la vidéo pour correspondre à l'audio. Si la plupart des utilisateurs de Twitter ont reconnu que le contenu n'était pas quelque chose que Biden était susceptible de dire, ils ont néanmoins été choqués par le réalisme de la vidéo. D'autres semblaient croire que c'était réel, ou du moins ne savaient pas quoi croire.
« Les studios d'Hollywood sont depuis longtemps capables de déformer la réalité, mais l'accès à cette technologie s'est démocratisé sans tenir compte des implications. C'est une combinaison de la très puissante technologie basée sur l'IA, de la facilité d'utilisation, et puis du fait que le modèle semble être : mettons-le sur Internet et voyons ce qui se passe ensuite », a déclaré Farid. Microsoft dispose également d'un outil de synthèse de voix appelé VALL-E. Il n'a pas encore été rendu public, mais d'autres petites ont beaucoup moins hésité à commercialiser leurs outils - parfois sans une analyse profonde, ouvrant ainsi la voie à toute forme d'abus.
Mais l'audio n'est qu'un des domaines où la désinformation générée par l'IA constitue une menace. D'autres systèmes d'IA gratuits de génération d'images en ligne, tels que Midjourney et DALL-E, peuvent produire des images photoréalistes de guerre et de catastrophes naturelles dans le style des médias traditionnels, à partir d'un simple texte. Le mois dernier, certains districts scolaires des États-Unis et de la France ont commencé à bloquer ChatGPT, qui peut produire du texte lisible - comme les travaux de fin d'études des étudiants - à la demande. Le détournement de ces outils peut entraver les maux qui minent déjà Internet et le Web.
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des outils d'IA de clonage et de synthèse vocale ?
Selon vous, risquent-ils d'amplifier la désinformation en ligne ? Pourquoi ?
Est-il possible d'éviter qu'ils soient utilisés à mauvais escient ? Si oui, que proposez-vous ?
Voir aussi
Des membres de 4chan utilisent une IA de clonage vocal pour simuler des voix de célébrités débitant des propos racistes et homophobes, obligeant le créateur à revoir les conditions d'accès à son IA
Les acteurs affirment qu'ils subissent de plus en plus de pressions pour céder leur voix à l'IA, qui se chargera ensuite de générer des versions synthétiques capables de remplacer les acteurs
VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur