OpenAI affirme pouvoir cloner une voix juste à partir d'un enregistrement audio de 15 secondes, mais juge son outil de clonage de voix trop risqué pour être diffusé à grande échelle

Le 1^er avril 2024 à 14:16, par Mathis Lucas

51PARTAGES

OpenAI retarde la disponibilité générale de son modèle d'IA de clonage de voix Voice Engine en raison des risques d'abus et de sécurité. L'entreprise craint que son outil soit utilisé pour accroître la désinformation ou permette aux acteurs malveillants de reproduire des voix à l'identique pour escroquer les gens, pour l'hameçonnage vocal, etc. Voice Engine serait capable d'imiter n'importe quel locuteur en analysant un échantillon audio de 15 secondes. OpenAI affirme qu'il génère "un discours naturel avec des voix émotives et réalistes". L'entreprise cherche un moyen de limiter les abus, mais prévoit toutefois de présenter le modèle en avant-première aux premiers testeurs.

La synthèse vocale a beaucoup évolué depuis le jouet Speak & Spell de 1978, qui permettait de lire des mots à haute voix à l'aide d'une voix électronique. Aujourd'hui, grâce à des modèles d'IA basés sur l'apprentissage profond, les logiciels peuvent non seulement créer des voix réalistes, mais aussi imiter de manière convaincante des voix existantes à l'aide de petits échantillons audio. Cependant, l'amélioration de la technologie de clonage a introduit de nouveaux risques pour les internautes. L'usurpation de la voix d'une personne à des fins malveillantes, l'escroquerie par un clonage de voix, la tromperie ou la manipulation, etc.

OpenAI vient d'annoncer Voice Engine, un modèle d'IA de synthèse vocale qui, selon la startup, permet de créer des voix synthétiques à partir d'un segment de 15 secondes d'un enregistrement audio. Selon OpenAI, il génère "un discours naturel avec des voix émotives et réalistes". Voice Engine a été développé pour la première fois en 2022 et une première version a été utilisée pour la fonction de synthèse vocale intégrée au chatbot d'IA ChatGPT de l'entreprise. Mais sa puissance n'a jamais été révélée publiquement, en partie en raison de l'approche "prudente et informée" adoptée par la startup pour la diffuser plus largement.

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

Des échantillons audio de Voice Engine en action sont disponibles sur son site Web. Une fois la voix clonée, l'utilisateur peut saisir un texte dans le moteur vocal et obtenir une voix générée par l'IA. Mais OpenAI affirme qu'il n'est pas encore prêt à diffuser sa technologie à grande échelle. L'entreprise avait initialement prévu de lancer un programme pilote permettant aux développeurs de s'inscrire à l'API du moteur vocal au début de ce mois. Toutefois, après avoir réfléchi aux implications éthiques, elle a décidé de revoir ses ambitions à la baisse pour l'instant. Le déploiement est actuellement limité à un petit groupe de testeurs.

« Nous reconnaissons que générer des discours qui ressemblent à la voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale. Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans diverses industries. Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur l'opportunité et la manière de déployer cette technologie à grande échelle », a écrit l'entreprise dans un billet de blogue sur son site Web.

Parmi les entreprises ayant un accès anticipé à Voice Engine, citons la société de technologie éducative "Age of Learning", la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé de première ligne Dimagi, le créateur d'applications de communication "AI Livox" et le système de santé Lifespan. Dans les échantillons publiés par OpenAI, vous pouvez entendre ce que "Age of Learning" a fait avec l'outil pour générer du contenu en voix off préscripte, ainsi que pour lire "des réponses personnalisées en temps réel" aux étudiants, écrites par GPT-4. OpenAI a cité de nombreux cas d'utilisation pour son outil d'IA.

OpenAI a déclaré que Voice Engine pourrait être utile pour l'aide à la lecture, la traduction des langues et l'aide aux personnes souffrant de troubles soudains ou dégénératifs de l'élocution. Le billet de blogue évoque un programme pilote de l'université Brown qui a aidé un patient souffrant de troubles de la parole en créant un clone de moteur vocal à partir d'un enregistrement audio réalisé dans le cadre d'un projet scolaire. Mais cela signifie également que toute personne disposant de 15 secondes de la voix enregistrée d'une autre personne pourrait effectivement la cloner, ce qui comporte des risques d'une utilisation abusive.

Malgré les avantages potentiels, de mauvais acteurs pourraient certainement abuser de cette technologie pour se livrer à de graves imitations, ce qui est déjà un problème. Par exemple, dans le New Hampshire, les autorités enquêtent sur des automates d'appel envoyés à des milliers d'électeurs juste avant les primaires présidentielles, qui comportaient une voix générée par l'IA imitant celle du président américain Joe Biden. Un certain nombre de startups vendent déjà des technologies de clonage de voix, dont certaines sont accessibles au public ou à des clients professionnels triés sur le volet, dont les studios de divertissement.

La possibilité de cloner des voix a également déjà causé de nombreux problèmes dans le monde par le biais d'escroqueries téléphoniques où quelqu'un imite la voix d'un proche. Par ailleurs, des études ont révélé que cette technologie pouvait être utilisée pour s'introduire dans des comptes bancaires utilisant l'authentification vocale. OpenAI reconnaît que cette technologie pourrait poser des problèmes si elle était diffusée à grande échelle, c'est pourquoi il tente dans un premier temps de contourner ces problèmes en établissant un ensemble de règles. Pour obtenir un accès, les entreprises doivent respecter des exigences strictes.

OpenAI, ses klonlama aracı Voice Engine'i tanıttı.

15 saniyelik kısa bir sesle, insan seslerini gerçekçi bir şekilde kopyalayabiliyor ve yazılan metinleri sese çevirebiliyor.pic.twitter.com/6yNhhEGvxe
— BPT (@bpthaber) March 30, 2024

OpenAI a déclaré que les premiers testeurs du moteur vocal ont accepté de ne pas usurper l'identité d'une personne sans son consentement et de révéler que les voix sont générées par l'IA. Le laboratoire d'IA a adopté une approche similaire lorsqu'il a annoncé son modèle de génération de clips vidéo Sora, sans le diffuser à...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI affirme pouvoir cloner une voix juste à partir d'un enregistrement audio de 15 secondes, mais juge son outil de clonage de voix trop risqué pour être diffusé à grande échelle

Identifiant
Mot de passe

Mot de passe oublié ?