ElevenLabs, basée au Royaume-Uni, est une startup d'IA fondée en 2022 par Piotr Dabkowski, ancien ingénieur en apprentissage automatique (ML) chez Google, et Mati Staniszewski, ancien spécialiste en déploiement chez Palantir. L'entreprise propose un système d'IA permettant de cloner une voix humaine et lui faire dire ce que l'on veut. ElevenLabs a lancé son IA, baptisée Prime Voice, au début du mois, mais ce n'était qu'une question de temps avant qu'elle ne devienne un jouet pour les trolls sur Internet, notamment pour les membres du célèbre site 4chan, connu pour son manque de modération en ce qui concerne les discours de haine et racistes.
Les membres de 4chan ont afflué vers la plateforme gratuite de synthèse vocale d'ElevenLabs, utilisant la technologie de l'entreprise pour cloner la voix de célébrités et lire des documents audio allant des mèmes et de l'érotisme aux discours de haine et à la désinformation. Ces imitations de voix par l'IA se sont rapidement améliorées au cours des dernières années, mais le logiciel d'ElevenLabs, qui semble avoir été ouvert à l'accès général au cours du week-end, offre une combinaison puissante de vitesse, de qualité et de disponibilité, ainsi qu'une absence totale de garanties. L'abus de l'IA d'ElevenLabs a été signalé pour la première fois par Motherboard.
Crazy weekend - thank you to everyone for trying out our Beta platform. While we see our tech being overwhelmingly applied to positive use, we also see an increasing number of voice cloning misuse cases. We want to reach out to Twitter community for thoughts and feedback!
— ElevenLabs (@elevenlabsio) January 30, 2023
Les clips vocaux générés à l'aide de l'IA d'ElevenLabs et partagés sur 4chan semblaient imiter les voix de célébrités telles que Ben Sharpio, Emma Watson et Joe Rogan. Dans un exemple, une voix générée qui ressemble à celle d'Emma Watson lit une section de "Mein Kampf". Dans un autre, une voix très similaire à celle de Ben Sharpio fait des remarques racistes sur Alexandria Ocasio-Cortez. Dans un troisième, un autre utilisateur a pris une voix qui ressemble à "Rick Sanchez" de Justin Roiland dans Rick & Morty, disant qu'il allait battre sa femme, une référence évidente aux allégations actuelles de violence domestique contre le co-créateur de la série.
Dans un autre exemple, une personne disant "les droits des personnes transgenres sont des droits de l'homme" se fait étrangler. Sur un fil de discussion 4chan, les utilisateurs ont posté des clips vocaux générés par l'IA pour répandre une misogynie ou une transphobie intense en utilisant les voix de personnages ou de narrateurs de divers dessins animés ou jeux vidéo. Tout cela pour dire que c'est exactement ce que l'on peut attendre de la part de certains internautes une fois qu'ils mettent la main sur une technologie d'imitation profonde facile à utiliser. Sur son site Web, ElevenLabs propose à la fois un logiciel de "synthèse vocale" et une IA de "clonage de voix".
La plateforme d'ElevenLabs permet de cloner les voix des cibles en quelques secondes et générer des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie. ElevenLabs commercialise son logiciel comme un moyen de générer rapidement des doublages audio pour des médias tels que le cinéma, la télévision et YouTube. ElevenLabs est en effet l'une des nombreuses startups dans ce domaine, mais elle affirme que la qualité de ses voix nécessite peu d'édition, ce qui permet des applications telles que les doublages en temps réel dans des langues étrangères et la génération instantanée de livres audio.
Les messages sur 4chan comprennent des guides sur la façon d'utiliser la technologie d'ElevenLabs, de trouver l'échantillon audio nécessaire pour entraîner un modèle et de contourner les limites de "crédit" de la société pour générer des échantillons audio. Typique de 4chan, le contenu créé par ses utilisateurs varie considérablement en matière de ton et d'intention, allant des discours de haine aux propos racistes. Dans un fil de discussion publié lundi sur Twitter, ElevenLabs a reconnu cet abus et a déclaré qu'elle explorait des moyens d'atténuer ces problèmes. « Un week-end de folie ! Merci à tous d'avoir essayé notre plateforme bêta », a écrit ElevenLabs.
AI narrates The Great Gatsby.
— ElevenLabs (@elevenlabsio) January 29, 2023
Listen to a fragment from the classic by F. Scott Fitzgerald. Narrated by a fully AI-generated voice. No corrections were made. pic.twitter.com/vQdorBjQK6
« Si nous constatons que notre technologie est très majoritairement appliquée à des fins positives, nous constatons également un nombre croissant de cas d'utilisation abusive du clonage vocal », note l'entreprise dans son message sur Twitter. Elle a ajouté que, bien qu'elle soit en mesure de remonter jusqu'à un utilisateur spécifique pour tout fichier audio généré, elle étudie d'autres mesures de protection, notamment la vérification de l'identité des utilisateurs et la vérification manuelle de chaque demande de clonage vocal. ElevenLabs demande également l'avis de la communauté sur d'éventuelles mesures qu'elle pourrait prendre pour éviter les abus.
Les clips téléchargés sur 4chan ce week-end se concentrent sur des célébrités. Mais compte tenu de la grande qualité des voix générées et de la facilité apparente avec laquelle les gens les ont créées, ils soulignent le risque imminent des clips audio "deepfake". De la même manière que la vidéo deepfake a commencé comme une méthode permettant aux gens de créer de la pornographie non consensuelle de personnes spécifiques avant de se tourner vers d'autres cas d'utilisation, la trajectoire de l'audio deepfake ne fait que commencer. Les vidéos deepfake ont été utilisées pour harceler et intimider de nombreuses célébrités, mais aussi des particuliers.
Dans le même temps, les deepfakes sont peu à peu adoptés par des entités commerciales et utilisés parallèlement aux techniques traditionnelles d'effet visuel au cinéma et à la télévision. Toutefois, il est difficile de prévoir la façon dont le clonage vocal par l'intermédiaire de l'IA sera utilisé à l'avenir. De nombreuses autres entreprises proposent leur propre outil de conversion texte-voix, mais si le système similaire VALL-E de Microsoft n'est toujours pas commercialisé, d'autres entreprises plus petites ont beaucoup moins hésité à rendre publics leurs outils de clonage vocal - parfois sans une analyse éthique profonde - ouvrant ainsi la voie à toute forme d'abus.
Source : ElevenLabs
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la mésaventure de la startup d'ElevenLabs ?
Que pensez-vous des systèmes d'IA permettant de cloner des voix cibles ?
Selon vous, existe-t-il un besoin réel pour ces outils ? Si oui, lesquelles ?
À votre avis, quelles mesures pourraient permettre de limiter les abus de ces logiciels ?
Selon vous, quels impacts ces outils pourraient avoir sur la société ?
Voir aussi
VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur
OpenAI le créateur de ChatGPT entraîne son IA pour remplacer les programmeurs humains, d'après un rapport, qui ravive le débat sur la future disparition du métier de développeur
La procureure générale de New York ouvre une enquête sur Twitch, 4chan et Discord après la fusillade de Buffalo, pour déterminer le rôle de chacun de ces réseaux sociaux dans l'incident