L'ascension fulgurante de l'IA générative au cours des dernières années est peut-être passionnante pour les grandes entreprises qui cherchent à en tirer profit, mais elle suscite également des craintes quant à l'impact de cette technologie sur un large éventail d'emplois, allant des avocats aux codeurs en passant par les créateurs et les enseignants. Un secteur qui s'inquiète également de l'IA est celui des doubleurs de voix, dont beaucoup sont désormais invités à céder les droits sur leur voix afin qu'elle puisse être générée numériquement, une technique qui pourrait remplacer les acteurs eux-mêmes. Les doubleurs sont déjà confrontés à une réalité troublante.
L'enquête, qui a porté sur nombreux acteurs et organisations de défense des droits, a révélé que les contrats incluant des clauses relatives aux voix synthétiques sont désormais très répandus. Plus précisément, de plus en plus d'acteurs sont désormais contraints par contrat de céder les droits de leur voix, parfois sans compensation. L'enquête a révélé que de nombreuses entreprises proposent désormais des services de clonage, de génération ou de synthèse de la voix pour des prix aussi bas que 30 dollars par mois. Quelques sites Web proposent même ce service en téléchargeant simplement des enregistrements, ce qui permet de synthétiser une voix.
Cela se fait sans le consentement du propriétaire de la voix. Tim Friedlander, président et fondateur de la National Association of Voice Actors (NAVA), a confié que les contrats qui permettent aux producteurs de synthétiser les voix des acteurs, souvent sans compensation supplémentaire, sont désormais très répandus, et les acteurs ne se rendent parfois pas compte que ces clauses ont été ajoutées. Parfois, ceux qui s'y opposent se voient répondre qu'ils ne seront pas engagés s'ils n'acceptent pas ces clauses. Ces obligations contractuelles ne sont que l'une des nombreuses préoccupations des acteurs concernant l'essor de l'IA de synthèse vocale.
Elle menace de mettre au chômage des pans entiers de l'industrie. Fryda Wolff, qui a prêté sa voix à des jeux tels qu'Apex Legends, a déclaré : « les développeurs de jeux, les studios d'animation et peut-être même les clients commerciaux pourraient s'en sortir en me soutirant davantage de performances en donnant ma voix à l'IA, en utilisant ces performances générées et en ne me rémunérant jamais pour l'utilisation de ma ressemblance, sans même informer mon agence de ce qui a été fait ». Les personnes qui essaient de percer dans l'industrie cinématographique et qui travaillent à plein temps pour joindre les deux bouts pourraient en souffrir.
« Ces emplois sont ceux qui seront perdus en premier en raison des voix synthétiques, ce qui portera fortement préjudice à une grande partie de l'industrie », a déclaré Friedlander. En outre, SungWon Cho, un acteur de jeux et d'animations qui utilise également le nom de ProZD, a résumé les sentiments de nombreux acteur. « Je suis complètement contre cela. Synthétiser une voix enlève l'âme et la spontanéité d'une performance réelle. Je ne peux qu'espérer que les voix synthétiques disparaissent complètement, mais au moins, les acteurs devraient avoir la possibilité de ne pas accepter leur utilisation », a déclaré SungWon Cho à Motherboard.
Il existe aujourd'hui de nombreuses entreprises qui proposent de cloner, de générer ou de synthétiser la voix de quelqu'un en utilisant l'IA. Les enquêteurs ont testé plusieurs des outils d'IA de ces sociétés et ils fonctionnent généralement de la même manière. Tout d'abord, les utilisateurs peuvent enregistrer leur propre voix en utilisant un script fourni par l'entreprise. Une fois que l'utilisateur a enregistré une certaine quantité d'audio, parfois de 10 à 60 minutes, l'entreprise crée une réplique de la voix de l'utilisateur. L'utilisateur peut alors écrire n'importe quel texte arbitraire, et le système le lira à voix haute avec la version synthétique de sa voix.
Comme les artistes conceptuels, les doubleurs de voix sont également préoccupés par le fait que de nombreuses plateformes qui proposent des services de génération de voix sont très bon marché, bien moins cher que l'emploi d'un doubleur de voix. Tout comme les services d'IA qui créent de l'art génératif, ces plateformes ne font aucune distinction en matière de propriété intellectuelle. Toute voix peut être téléchargée pour être synthétisée, ce qui signifie que la voix d'un acteur peut être volée et utilisée sans son consentement. Les entreprises proposant des IA de génération d'œuvres d'art font déjà face à des plaintes pour violation de droit d'auteur.
La plupart des sites testés dans le cadre de l'enquête répliquent par défaut les voix en anglais américain. Le coût de ces services est souvent très faible, les utilisateurs pouvant synthétiser des voix gratuitement ou à très bas prix. Sur son site Web, ElevenLabs affirme vouloir "faire du support audio multilingue à la demande une réalité dans l'éducation, le streaming, les livres audio, les jeux, les films, et même les conversations en temps réel", et dispose d'outils qui "fournissent la qualité nécessaire à la vocalisation des actualités, des bulletins d'information, des livres et des vidéos". ElevenLabs est une startup d'IA fondée en 2022 et basée au Royaume-Uni.
Mati Staniszewski, cofondateur d'ElevenLabs, a déclaré que la startup voit un avenir dans lequel les entreprises d'IA et les acteurs vocaux s'associent ensemble : « les acteurs vocaux ne seront plus limités par le nombre de sessions d'enregistrement auxquelles ils peuvent participer et, au lieu de cela, ils seront en mesure d'accorder des licences pour que leurs voix soient utilisées dans un nombre quelconque de projets simultanément, ce qui garantit des revenus supplémentaires et des flux de redevances. Ce potentiel a déjà été reconnu par les acteurs eux-mêmes, dont certains nous ont contactés en déclarant leur intérêt pour de tels partenariats ».
La technologie de génération vocale ne cesse de s'améliorer. L'outil d'IA de synthèse vocale de Microsoft, appelé Vall-E, peut reproduire la voix d'une personne jusqu'à son timbre et son ton émotionnel après avoir entendu un échantillon d'environ trois secondes seulement. Par ailleurs, et comme dans le cas des deepfakes, les experts s'inquiètent de l'utilisation potentiellement abusive de ces outils, comme l'usurpation de l'identité de politiciens ou le fait de faire croire aux gens qu'ils parlent à leur famille, à leurs amis ou à des fonctionnaires et qu'ils leur transmettent des données sensibles. Les acteurs estiment qu'il s'agit mépris à l'égard de leur travail.
Par exemple, en janvier, un rapport a révélé comment des membres du site 4chan se sont rapidement emparés d'un programme bêta d'ElevenLabs et l'ont utilisé pour générer des voix de célébrités, notamment Emma Watson lisant des sections de Mein Kampf. Certaines voix de célébrités synthétisées par les membres de 4chan débitaient des propos racistes et homophobes. Les conséquences sur l'industrie de la voix sont directement liées au travail d'ElevenLabs, qui commercialise son service comme une option pour les jeux, les films, etc.
Source : Motherboard
Et vous ?
Quel est votre avis sur le sujet ?
Pensez-vous que l'IA pourrait supprimer le métier de doubleur de voix ?
Voir aussi
Des membres de 4chan utilisent une IA de clonage vocal pour simuler des voix de célébrités débitant des propos racistes et homophobes, obligeant le créateur à revoir les conditions d'accès à son IA
Une plainte en recours collectif est déposée contre Stability AI, Midjourney et DeviantArt pour violations du droit d'auteur, sous le couvert d'une prétendue « intelligence artificielle »
VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur