We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ — OpenAI (@OpenAI) March 29, 2024

OpenAI, ses klonlama aracı Voice Engine'i tanıttı.



15 saniyelik kısa bir sesle, insan seslerini gerçekçi bir şekilde kopyalayabiliyor ve yazılan metinleri sese çevirebiliyor.pic.twitter.com/6yNhhEGvxe — BPT (@bpthaber) March 30, 2024

La synthèse vocale a beaucoup évolué depuis le jouet Speak & Spell de 1978, qui permettait de lire des mots à haute voix à l'aide d'une voix électronique. Aujourd'hui, grâce à des modèles d'IA basés sur l'apprentissage profond, les logiciels peuvent non seulement créer des voix réalistes, mais aussi imiter de manière convaincante des voix existantes à l'aide de petits échantillons audio. Cependant, l'amélioration de la technologie de clonage a introduit de nouveaux risques pour les internautes. L'usurpation de la voix d'une personne à des fins malveillantes, l'escroquerie par un clonage de voix, la tromperie ou la manipulation, etc.OpenAI vient d'annoncer Voice Engine, un modèle d'IA de synthèse vocale qui, selon la startup, permet de créer des voix synthétiques à partir d'un segment de 15 secondes d'un enregistrement audio. Selon OpenAI, il génère "un discours naturel avec des voix émotives et réalistes". Voice Engine a été développé pour la première fois en 2022 et une première version a été utilisée pour la fonction de synthèse vocale intégrée au chatbot d'IA ChatGPT de l'entreprise. Mais sa puissance n'a jamais été révélée publiquement, en partie en raison de l'approche "prudente et informée" adoptée par la startup pour la diffuser plus largement.Des échantillons audio de Voice Engine en action sont disponibles sur son site Web. Une fois la voix clonée, l'utilisateur peut saisir un texte dans le moteur vocal et obtenir une voix générée par l'IA. Mais OpenAI affirme qu'il n'est pas encore prêt à diffuser sa technologie à grande échelle. L'entreprise avait initialement prévu de lancer un programme pilote permettant aux développeurs de s'inscrire à l'API du moteur vocal au début de ce mois. Toutefois, après avoir réfléchi aux implications éthiques, elle a décidé de revoir ses ambitions à la baisse pour l'instant. Le déploiement est actuellement limité à un petit groupe de testeurs.« Nous reconnaissons que générer des discours qui ressemblent à la voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale. Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans diverses industries. Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur l'opportunité et la manière de déployer cette technologie à grande échelle », a écrit l'entreprise dans un billet de blogue sur son site Web.Parmi les entreprises ayant un accès anticipé à Voice Engine, citons la société de technologie éducative "Age of Learning", la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé de première ligne Dimagi, le créateur d'applications de communication "AI Livox" et le système de santé Lifespan. Dans les échantillons publiés par OpenAI, vous pouvez entendre ce que "Age of Learning" a fait avec l'outil pour générer du contenu en voix off préscripte, ainsi que pour lire "des réponses personnalisées en temps réel" aux étudiants, écrites par GPT-4. OpenAI a cité de nombreux cas d'utilisation pour son outil d'IA.OpenAI a déclaré que Voice Engine pourrait être utile pour l'aide à la lecture, la traduction des langues et l'aide aux personnes souffrant de troubles soudains ou dégénératifs de l'élocution. Le billet de blogue évoque un programme pilote de l'université Brown qui a aidé un patient souffrant de troubles de la parole en créant un clone de moteur vocal à partir d'un enregistrement audio réalisé dans le cadre d'un projet scolaire. Mais cela signifie également que toute personne disposant de 15 secondes de la voix enregistrée d'une autre personne pourrait effectivement la cloner, ce qui comporte des risques d'une utilisation abusive.Malgré les avantages potentiels, de mauvais acteurs pourraient certainement abuser de cette technologie pour se livrer à de graves imitations, ce qui est déjà un problème. Par exemple, dans le New Hampshire, les autorités enquêtent sur des automates d'appel envoyés à des milliers d'électeurs juste avant les primaires présidentielles, qui comportaient une voix générée par l'IA imitant celle du président américain Joe Biden. Un certain nombre de startups vendent déjà des technologies de clonage de voix, dont certaines sont accessibles au public ou à des clients professionnels triés sur le volet, dont les studios de divertissement.La possibilité de cloner des voix a également déjà causé de nombreux problèmes dans le monde par le biais d'escroqueries téléphoniques où quelqu'un imite la voix d'un proche. Par ailleurs, des études ont révélé que cette technologie pouvait être utilisée pour s'introduire dans des comptes bancaires utilisant l'authentification vocale. OpenAI reconnaît que cette technologie pourrait poser des problèmes si elle était diffusée à grande échelle, c'est pourquoi il tente dans un premier temps de contourner ces problèmes en établissant un ensemble de règles. Pour obtenir un accès, les entreprises doivent respecter des exigences strictes.OpenAI a déclaré que les premiers testeurs du moteur vocal ont accepté de ne pas usurper l'identité d'une personne sans son consentement et de révéler que les voix sont générées par l'IA. Le laboratoire d'IA a adopté une approche similaire lorsqu'il a annoncé son modèle de génération de clips vidéo Sora, sans le diffuser à grande échelle. Conformément à sa mission de déploiement prudent de la technologie, OpenAI a fourni trois recommandations sur la façon dont la société devrait changer pour s'adapter à sa technologie dans son billet de blogue. Selon l'entreprise, ces mesures devraient permettre de réduire les risques.Ces mesures comprennent l'abandon progressif de l'authentification vocale pour les comptes bancaires, l'éducation du public pour qu'il comprenne "la possibilité d'un contenu d'IA trompeur" et l'accélération du développement de techniques permettant de suivre l'origine du contenu audio, afin qu'il soit toujours clair quand vous interagissez avec une personne réelle ou avec une IA. Le moteur de clonage de voix d'OpenAI arrive à un moment où le gouvernement américain s'efforce de limiter les utilisations non éthiques de cette technologie. Elle est de plus en plus utilisée par les acteurs malveillants dans le cadre d'escroqueries.Face à la concurrence des outils de clonage de voix, OpenAI affirme que Voice Engine se distingue par le fait qu'il s'agit d'un "petit" modèle d'IA (nous ne savons pas à quel point il est petit). Mais comme il a été mis au point en 2022, il a presque l'impression d'être arrivé en retard à la fête. De plus, sa capacité de clonage n'est peut-être pas parfaite. Les précédents modèles de synthèse vocale formés par l'utilisateur, comme ceux d'ElevenLabs et de Microsoft, se sont heurtés à des accents qui ne faisaient pas partie de leur ensemble de données de formation. OpenAI n'a pas fourni d'autres détails sur son outil de clonage de voix.Toutefois, une demande de marque déposée le 19 mars montre qu'OpenAI a probablement l'intention de se lancer dans la reconnaissance vocale et les assistants vocaux numériques. À terme, l'amélioration de cette technologie pourrait aider OpenAI à concurrencer d'autres produits vocaux tels qu'Alexa d'Amazon.Source : OpenAI Quel est votre avis sur le sujet ?Que pensez-vous de l'outil de clonage de voix et de synthèse vocale d'OpenAI ?Que pensez-vous de la décision de l'entreprise de limiter l'accès à Voice Engine pour l'instant ?Comment peut-on limiter les risques liés à la disponibilité à grande échelle des outils de clonage de voix ?