L'acteur Stephen Fry met en garde contre les dangers potentiels du clonage de la voix à l'aide des technologies d'IA,

Il a laissé entendre que cela pourrait être le signe d'un futur dystopique

Le 17 octobre 2023 à 16:03, par Mathis Lucas

37PARTAGES

L'acteur britannique Stephen Fry a mis en garde récemment contre les dangers potentiels liés à la reproduction de la voix humaine à l'aide de l'IA. Sa mise en garde est intervenue après qu'il a découvert que des gens ont utilisé l'IA pour cloner sa voix et ont ensuite utilisé la voix synthétique pour la narration dans un clip documentaire. La version numérique de sa voix aurait été générée à partir de sept livres audio de Harry Potter qu'il a patiemment et minutieusement narrés par le passé. Tout ceci a été fait à l'insu et sans l'autorisation de l'acteur, ce qui pose la question de savoir à qui appartient notre voix. Cela pose également d'autres préoccupations liées à la sécurité et à l'éthique.

Parmi les nombreuses avancées récentes dans le domaine de l'IA, la plus inquiétante est probablement celle de la technologie de clonage de la voix humaine. Ces outils d'IA modernes permettent désormais de reproduire rapidement et à peu de frais la voix d'une personne donnée et, bien que ces versions générées par l'IA ne soient pas encore des ressemblances parfaites, il est important d'être conscient de la menace émergente qu'elles représentent. Cette technologie d'IA a le potentiel d'améliorer la gestion de la voix dans le monde du cinéma, de l'animation et dans plusieurs autres domaines. Mais actuellement, elle est surtout utilisée à des fins malveillantes.

S'exprimant lors du festival technologique CogX à Londres en septembre, l'acteur britannique Stephen Fry a diffusé un extrait d'un documentaire dont il semblait être le narrateur, avant d'affirmer qu'il s'agissait du résultat d'un clonage numérique. « Je n'ai rien dit de tout cela. C'était une machine. Oui, cela m'a choqué. Ils ont utilisé ma lecture des sept volumes des livres Harry Potter, et à partir de cet ensemble de données, une version numérique de voix a été créée à l'aide de l'IA. Elle a fait cette narration. Il pourrait me faire lire n'importe quoi, d'un appel à la tempête parlementaire à du porno ; le tout à mon insu et sans ma permission », a-t-il déclaré.

« Et ce que vous venez d'entendre a été fait à mon insu », a ajouté Fry. Selon ce dernier, la voix est si bonne qu'il est impossible de faire la différence. Même les mots allemands comme "Hauptsturmführer" et les noms de lieux néerlandais sont parfaitement prononcés. « J'en ai entendu parler, je l'ai ensuite envoyé à mes agents des deux côtés de l'Atlantique, et ils sont devenus fous - ils n'avaient aucune idée qu'une telle chose était possible », a-t-il déclaré. Le fait que la voix de l'acteur a été copiée sans son consentement est particulièrement problématique compte tenu de la grève des scénaristes qui a duré cinq mois avant de prendre fin en septembre.

La génération de contenu par l'IA est l'une des préoccupations clés qui ont motivé l'action syndicale. « Vous n'avez encore rien vu. Ce n'est que de l'audio. Il ne faudra pas attendre longtemps pour voir apparaître des vidéos deepfakes tout aussi convaincantes », a dit Fry à ses agents en colère. Selon Fry, la principale question est de savoir à quel point l'IA pourrait devenir sophistiquée. « Nous devons considérer l'IA comme la première automobile. Elle est impressionnante, mais pas encore aboutie. La technologie n'est pas un nom, c'est un verbe, elle est toujours en mouvement. Ce que nous avons aujourd'hui n'est pas ce qui sera », a déclaré l'acteur.

« En ce qui concerne les modèles d'IA, ce que nous avons aujourd'hui progressera à un rythme plus rapide que n'importe quelle technologie que nous n’ayons jamais vue. Une chose sur laquelle nous sommes tous d'accord : c'est une foutue époque bizarre pour être en vie », a-t-il déclaré. Selon l'acteur, il s'agit d'une évolution à la fois profonde et terrifiante. L'IA de clonage de la voix pose diverses préoccupations d'ordre sécuritaire et éthique. À qui appartient notre voix, si n'importe qui peut en créer une copie pour quelques dollars et lui faire dire ce qu'il veut ? Et que risquons-nous de perdre si nous ne pouvons plus distinguer une vraie d'une fausse voix ?

Comme les autres systèmes d'IA, la technologie de clonage vocal nécessite un ensemble complet de données pour produire un résultat précis. Toutefois, l'ampleur des données requises pour la technologie vocale est relativement faible, car chaque langue utilise un nombre limité de sons - la langue anglaise ne compterait que 44 sons uniques, ou phonèmes, qui peuvent tous être couverts par quelques phrases seulement. Une fois qu'un système d'IA dispose de ces informations, il peut reconstituer n'importe quel mot à la demande en accédant aux enregistrements et en combinant les sons pertinents, créant ainsi un modèle vocal numérique.

Ce processus est rapide et facile, et certaines entreprises le proposent même gratuitement. Cette technologie est développée et commercialisée par des entreprises d'IA comme ElevenLabs, Speechify et Resemble.ai, qui permet de cloner une voix à partir de quelques minutes de données vocales. Ces entreprises affirment que les voix synthétiques ont atteint aujourd'hui un niveau de sophistication sans précédent : elles peuvent marquer une pause au bon moment, imiter les choses comme "hum" et "ah", et même maîtriser des sons non verbaux comme les bâillements, les soupirs et les gloussements. La technologie vocale a un éventail d'applications limité.

À l'heure actuelle, les modèles vocaux d'IA sont le plus souvent utilisés dans la production de médias, par exemple pour le doublage de contenus en langue étrangère, où ils constituent souvent une solution moins onéreuse que l'embauche d'un comédien. Même si l'on fait appel à un acteur, sa voix peut être reproduite virtuellement pour les modifications en postproduction, de sorte qu'il n'est pas nécessaire de retourner physiquement sur le plateau si des changements sont nécessaires. Il s'agit d'un sujet de discorde entre les maisons de production et les acteurs. Les modèles vocaux d'IA sont également utilisés dans les services à la clientèle à distance.

Ils sont aussi utilisés pour donner une voix à ceux qui ont perdu la leur, comme dans le cas des patients atteints d'un cancer de la gorge, où une voix d'IA construite à partir d'anciens enregistrements de la personne peut être utilisée pour lui permettre de "parler" lorsqu'elle a perdu sa voix à cause de la maladie. Mais si l'utilisation de modèles vocaux d'IA présente des avantages indéniables, cette technologie suscite également des inquiétudes, et des exemples d'utilisation abusive ont été relevés au cours des derniers mois. L'IA n'en étant qu'à ses débuts, les ramifications juridiques du développement et du déploiement des modèles vocaux d'IA restent floues.

La synthèse des voix d'acteurs en vue de leur utilisation en postproduction pose des problèmes de responsabilité et de consentement, car les modèles pourraient être programmés pour dire n'importe quoi. Ce déploiement de modèles vocaux est l'une des questions clés au cœur de l'impasse actuelle entre le groupe d'intérêt AMPTP (Alliance of Motion Picture and Television Producers) et le groupe syndical SAG-AFTRA (Screen Actors Guild‐American Federation of Television and Radio Artists), les acteurs exigeant des contrôles plus stricts sur la manière dont les modèles sont construits et utilisés. Les négociations se poursuivent entre ces deux groupes.

L'aspect le plus préoccupant des modèles vocaux d'IA est sans doute leur utilisation dans le cadre d'activités criminelles. Les fraudeurs peuvent désormais utiliser des clones vocaux d'IA de personnes en qui leur cible a confiance, en les convainquant qu'ils parlent à quelqu'un qu'ils connaissent, ce qui augmente considérablement les chances de réussite de l'escroquerie. Cette nouvelle technique a connu un tel succès que la Federal Trade Commission (FTC) des États-Unis a lancé un avertissement au public à ce sujet. De nombreuses victimes ont été recensées cette année et les entreprises peinent à trouver des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'acteur Stephen Fry met en garde contre les dangers potentiels du clonage de la voix à l'aide des technologies d'IA,

Il a laissé entendre que cela pourrait être le signe d'un futur dystopique

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'acteur Stephen Fry met en garde contre les dangers potentiels du clonage de la voix à l'aide des technologies d'IA, Il a laissé entendre que cela pourrait être le signe d'un futur dystopique

L'acteur Stephen Fry met en garde contre les dangers potentiels du clonage de la voix à l'aide des technologies d'IA,

Il a laissé entendre que cela pourrait être le signe d'un futur dystopique