OpenAI retarde la disponibilité générale de son modèle d'IA de clonage de voix Voice Engine en raison des risques d'abus et de sécurité. L'entreprise craint que son outil soit utilisé pour accroître la désinformation ou permette aux acteurs malveillants de reproduire des voix à l'identique pour escroquer les gens, pour l'hameçonnage vocal, etc. Voice Engine serait capable d'imiter n'importe quel locuteur en analysant un échantillon audio de 15 secondes. OpenAI affirme qu'il génère "un discours naturel avec des voix émotives et réalistes". L'entreprise cherche un moyen de limiter les abus, mais prévoit toutefois de présenter le modèle en avant-première aux premiers testeurs.La synthèse vocale a beaucoup évolué depuis le jouet Speak & Spell de 1978, qui permettait de lire des mots à haute voix à l'aide d'une voix électronique. Aujourd'hui, grâce à des modèles d'IA basés sur l'apprentissage profond, les logiciels peuvent non seulement créer des voix réalistes, mais aussi imiter de manière convaincante des voix existantes à l'aide de petits échantillons audio. Cependant, l'amélioration de la technologie de clonage a introduit de nouveaux risques pour les internautes. L'usurpation de la voix d'une personne à des fins malveillantes, l'escroquerie par un clonage de voix, la tromperie ou la manipulation, etc.
OpenAI vient d'annoncer Voice Engine, un modèle d'IA de synthèse vocale qui, selon la startup, permet de créer des voix synthétiques à partir d'un segment de 15 secondes d'un enregistrement audio. Selon OpenAI, il génère "un discours naturel avec des voix émotives et réalistes". Voice Engine a été développé pour la première fois en 2022 et une première version a été utilisée pour la fonction de synthèse vocale intégrée au chatbot d'IA ChatGPT de l'entreprise. Mais sa puissance n'a jamais été révélée publiquement, en partie en raison de l'approche "prudente et informée" adoptée par la startup pour la diffuser plus largement.
We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024
Des échantillons audio de Voice Engine en action sont disponibles sur son site Web. Une fois la voix clonée, l'utilisateur peut saisir un texte dans le moteur vocal et obtenir une voix générée par l'IA. Mais OpenAI affirme qu'il n'est pas encore prêt à diffuser sa technologie à grande échelle. L'entreprise avait initialement prévu de lancer un programme pilote permettant aux développeurs de s'inscrire à l'API du moteur vocal au début de ce mois. Toutefois, après avoir réfléchi aux implications éthiques, elle a décidé de revoir ses ambitions à la baisse pour l'instant. Le déploiement est actuellement limité à un petit groupe de testeurs.
« Nous reconnaissons que générer des discours qui ressemblent à la voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale. Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans diverses industries. Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur l'opportunité et la manière de déployer cette technologie à grande échelle », a écrit l'entreprise dans un billet de blogue sur son site Web.
Parmi les entreprises ayant un accès anticipé à Voice Engine, citons la société de technologie éducative "Age of Learning", la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé de première ligne Dimagi, le créateur d'applications de communication "AI Livox" et le système de santé Lifespan. Dans les échantillons publiés par OpenAI, vous pouvez entendre ce que "Age of Learning...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.