Parmi les nombreuses avancées récentes dans le domaine de l'IA, la plus inquiétante est probablement celle de la technologie de clonage de la voix humaine. Ces outils d'IA modernes permettent désormais de reproduire rapidement et à peu de frais la voix d'une personne donnée et, bien que ces versions générées par l'IA ne soient pas encore des ressemblances parfaites, il est important d'être conscient de la menace émergente qu'elles représentent. Cette technologie d'IA a le potentiel d'améliorer la gestion de la voix dans le monde du cinéma, de l'animation et dans plusieurs autres domaines. Mais actuellement, elle est surtout utilisée à des fins malveillantes.
S'exprimant lors du festival technologique CogX à Londres en septembre, l'acteur britannique Stephen Fry a diffusé un extrait d'un documentaire dont il semblait être le narrateur, avant d'affirmer qu'il s'agissait du résultat d'un clonage numérique. « Je n'ai rien dit de tout cela. C'était une machine. Oui, cela m'a choqué. Ils ont utilisé ma lecture des sept volumes des livres Harry Potter, et à partir de cet ensemble de données, une version numérique de voix a été créée à l'aide de l'IA. Elle a fait cette narration. Il pourrait me faire lire n'importe quoi, d'un appel à la tempête parlementaire à du porno ; le tout à mon insu et sans ma permission », a-t-il déclaré.
« Et ce que vous venez d'entendre a été fait à mon insu », a ajouté Fry. Selon ce dernier, la voix est si bonne qu'il est impossible de faire la différence. Même les mots allemands comme "Hauptsturmführer" et les noms de lieux néerlandais sont parfaitement prononcés. « J'en ai entendu parler, je l'ai ensuite envoyé à mes agents des deux côtés de l'Atlantique, et ils sont devenus fous - ils n'avaient aucune idée qu'une telle chose était possible », a-t-il déclaré. Le fait que la voix de l'acteur a été copiée sans son consentement est particulièrement problématique compte tenu de la grève des scénaristes qui a duré cinq mois avant de prendre fin en septembre.
La génération de contenu par l'IA est l'une des préoccupations clés qui ont motivé l'action syndicale. « Vous n'avez encore rien vu. Ce n'est que de l'audio. Il ne faudra pas attendre longtemps pour voir apparaître des vidéos deepfakes tout aussi convaincantes », a dit Fry à ses agents en colère. Selon Fry, la principale question est de savoir à quel point l'IA pourrait devenir sophistiquée. « Nous devons considérer l'IA comme la première automobile. Elle est impressionnante, mais pas encore aboutie. La technologie n'est pas un nom, c'est un verbe, elle est toujours en mouvement. Ce que nous avons aujourd'hui n'est pas ce qui sera », a déclaré l'acteur.
« En ce qui concerne les modèles d'IA, ce que nous avons aujourd'hui progressera à un rythme plus rapide que n'importe quelle technologie que nous n’ayons jamais vue. Une chose sur laquelle nous sommes tous d'accord : c'est une foutue époque bizarre pour être en vie », a-t-il déclaré. Selon l'acteur, il s'agit d'une évolution à la fois profonde et terrifiante. L'IA de clonage de la voix pose diverses préoccupations d'ordre sécuritaire et éthique. À qui appartient notre voix, si n'importe qui peut en créer une copie pour quelques dollars et lui faire dire ce qu'il veut ? Et que risquons-nous de perdre si nous ne pouvons plus distinguer une vraie d'une fausse voix ?
Comme les autres systèmes d'IA, la technologie de clonage vocal nécessite un ensemble complet de données pour produire un résultat précis. Toutefois, l'ampleur des données requises pour la technologie vocale est relativement faible, car chaque langue utilise un nombre limité de sons - la langue anglaise ne compterait que 44 sons uniques, ou phonèmes, qui peuvent tous être couverts par quelques phrases seulement. Une fois qu'un système d'IA dispose de ces informations, il peut reconstituer n'importe quel mot à la demande en accédant aux enregistrements et en combinant les sons pertinents, créant ainsi un modèle vocal numérique.
Ce processus est rapide et facile, et certaines entreprises le proposent même gratuitement. Cette technologie est développée et commercialisée par des entreprises d'IA comme ElevenLabs, Speechify et Resemble.ai, qui permet de cloner une voix à partir de quelques minutes de données vocales. Ces entreprises affirment que les voix synthétiques ont atteint aujourd'hui un niveau de sophistication sans précédent : elles peuvent marquer une pause au bon moment, imiter les choses comme "hum" et "ah", et même maîtriser des sons non verbaux comme les bâillements, les soupirs et les gloussements. La technologie vocale a un éventail d'applications limité.
À l'heure actuelle, les modèles vocaux d'IA sont le plus souvent utilisés dans la production de médias, par exemple pour le doublage de contenus en langue étrangère, où ils constituent souvent une solution moins onéreuse que l'embauche d'un comédien. Même si l'on fait appel à un acteur, sa voix peut être reproduite virtuellement pour les modifications en postproduction, de sorte qu'il n'est pas nécessaire de retourner physiquement sur le plateau si des changements sont nécessaires. Il s'agit d'un sujet de discorde entre les maisons de production et les acteurs. Les modèles vocaux d'IA sont également utilisés dans les services à la clientèle à distance.
Ils sont aussi utilisés pour donner une voix à ceux qui ont perdu la leur, comme dans le cas des patients atteints d'un cancer de la gorge, où une voix d'IA construite à partir d'anciens enregistrements de la personne peut être utilisée pour lui permettre de "parler" lorsqu'elle a perdu sa voix à cause de la maladie. Mais si l'utilisation de modèles vocaux d'IA présente des avantages indéniables, cette technologie suscite également des inquiétudes, et des exemples d'utilisation abusive ont été relevés au cours des derniers mois. L'IA n'en étant qu'à ses débuts, les ramifications juridiques du développement et du déploiement des modèles vocaux d'IA restent floues.
La synthèse des voix d'acteurs en vue de leur utilisation en postproduction pose des problèmes de responsabilité et de consentement, car les modèles pourraient être programmés pour dire n'importe quoi. Ce déploiement de modèles vocaux est l'une des questions clés au cœur de l'impasse actuelle entre le groupe d'intérêt AMPTP (Alliance of Motion Picture and Television Producers) et le groupe syndical SAG-AFTRA (Screen Actors Guild‐American Federation of Television and Radio Artists), les acteurs exigeant des contrôles plus stricts sur la manière dont les modèles sont construits et utilisés. Les négociations se poursuivent entre ces deux groupes.
L'aspect le plus préoccupant des modèles vocaux d'IA est sans doute leur utilisation dans le cadre d'activités criminelles. Les fraudeurs peuvent désormais utiliser des clones vocaux d'IA de personnes en qui leur cible a confiance, en les convainquant qu'ils parlent à quelqu'un qu'ils connaissent, ce qui augmente considérablement les chances de réussite de l'escroquerie. Cette nouvelle technique a connu un tel succès que la Federal Trade Commission (FTC) des États-Unis a lancé un avertissement au public à ce sujet. De nombreuses victimes ont été recensées cette année et les entreprises peinent à trouver des solutions efficaces contre ce problème.
Les fournisseurs d'outils de clonage vocal déclarent toujours que leurs services ne doivent pas être utilisés pour cloner la voix d'une personne à des fins malveillantes ou sans son consentement, mais il est difficile de faire respecter cette règle. Un exemple notable est celui de la société Descript, dont l'outil Overdub est l'un des plus efficaces du marché. L'outil de synthèse vocale a été facilement déjoué par un groupe qui a utilisé un podcast audio modifié de leur ami, sans son consentement, pour tromper ses collègues de travail. Ils ont publié sur YouTube une vidéo documentant le processus, soulignant la facilité d'accès et l'efficacité de la technologie.
Le but était d'encourager Descript à mettre en place une plus grande sécurité. Les personnes dont l'identité est usurpée au moyen d'outils vocaux d'IA risquent de voir leur réputation ternie et de perdre leur argent. Par exemple, dans le cas de Fry, sa voix aurait pu être utilisée pour recommander à ses fans des choses comme de faux sites d'investissement, du porno, des articles de mauvaise qualité, etc. En outre, l'identité de Martin Lewis, un journaliste financier britannique respecté, a récemment été usurpée dans le cadre d'une escroquerie à l'investissement qui utilisait son visage et sa voix pour promouvoir une entreprise inexistante appelée Quantum AI.
En somme, si les modèles vocaux d'IA peuvent avoir des utilisations bénéfiques dans de nombreux secteurs, le manque actuel de réglementation et de compréhension de la technologie, combiné à la facilité d'accès pour ceux qui souhaitent désinformer ou nuire, signifie qu'ils ne sont pas sans risque. Jusqu'à ce qu'un cadre réglementaire suffisant soit établi, il est important de rester vigilant lorsque l'on utilise des modèles vocaux d'IA et d'être conscient des risques qu'ils peuvent poser.
Et vous ?
Que pensez-vous de la technologie de clonage de la voix ?
Que pensez-vous des mises en garde de l'acteur Stephan Fry ?
Quid des craintes qu'il a exprimées à propos du futur de la technologie ?
Comment peut-on faire face aux risques liés à la technologie de clonage de la voix ?
Les entreprises peuvent-elles être tenues responsables des mauvaises utilisations de leurs produits ?
Selon vous, les outils d'IA modernes de clonage de la voix doivent-ils être interdits ? Pourquoi ?
La technologie de clonage de la voix annonce-t-elle un futur dystopique comme certains le prétendent ?
Voir aussi
L'acteur Stephen Fry affirme que sa voix a été volée dans les livres audio de Harry Potter et reproduite à l'aide de l'IA, il estime que les acteurs feront face à de plus grands défis à l'avenir
Les nouveaux outils de clonage de voix par l'IA ajoutent "de l'huile sur le feu" de la désinformation, une voix de Joe Biden générée par l'IA prononce un discours "hilarant" sur l'état de l'Union
La Writers Guild of America, un syndicat des scénaristes américains, autorise l'utilisation de l'IA pour l'écriture des scénarios, à condition que les scénaristes restent crédités comme auteur
Les studios de cinéma font appel à GPT-4 pour remplacer des scénaristes en grève, mais le résultat n'est pas satisfaisant, les scénaristes refusent de corriger les scénarios bâclés générés par l'IA