OpenAI retarde la disponibilité générale de son modèle d'IA de clonage de voix Voice Engine en raison des risques d'abus et de sécurité. L'entreprise craint que son outil soit utilisé pour accroître la désinformation ou permette aux acteurs malveillants de reproduire des voix à l'identique pour escroquer les gens, pour l'hameçonnage vocal, etc. Voice Engine serait capable d'imiter n'importe quel locuteur en analysant un échantillon audio de 15 secondes. OpenAI affirme qu'il génère "un discours naturel avec des voix émotives et réalistes". L'entreprise cherche un moyen de limiter les abus, mais prévoit toutefois de présenter le modèle en avant-première aux premiers testeurs.
La synthèse vocale a beaucoup évolué depuis le jouet Speak & Spell de 1978, qui permettait de lire des mots à haute voix à l'aide d'une voix électronique. Aujourd'hui, grâce à des modèles d'IA basés sur l'apprentissage profond, les logiciels peuvent non seulement créer des voix réalistes, mais aussi imiter de manière convaincante des voix existantes à l'aide de petits échantillons audio. Cependant, l'amélioration de la technologie de clonage a introduit de nouveaux risques pour les internautes. L'usurpation de la voix d'une personne à des fins malveillantes, l'escroquerie par un clonage de voix, la tromperie ou la manipulation, etc.
OpenAI vient d'annoncer Voice Engine, un modèle d'IA de synthèse vocale qui, selon la startup, permet de créer des voix synthétiques à partir d'un segment de 15 secondes d'un enregistrement audio. Selon OpenAI, il génère "un discours naturel avec des voix émotives et réalistes". Voice Engine a été développé pour la première fois en 2022 et une première version a été utilisée pour la fonction de synthèse vocale intégrée au chatbot d'IA ChatGPT de l'entreprise. Mais sa puissance n'a jamais été révélée publiquement, en partie en raison de l'approche "prudente et informée" adoptée par la startup pour la diffuser plus largement.
[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. <a href="https://t.co/yLsfGaVtrZ">https://t.co/yLsfGaVtrZ</a></p>— OpenAI (@OpenAI) <a href="https://twitter.com/OpenAI/status/1773760852153299024?ref_src=twsrc%5Etfw">March 29, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]
Des échantillons audio de Voice Engine en action sont disponibles sur son site Web. Une fois la voix clonée, l'utilisateur peut saisir un texte dans le moteur vocal et obtenir une voix générée par l'IA. Mais OpenAI affirme qu'il n'est pas encore prêt à diffuser sa technologie à grande échelle. L'entreprise avait initialement prévu de lancer un programme pilote permettant aux développeurs de s'inscrire à l'API du moteur vocal au début de ce mois. Toutefois, après avoir réfléchi aux implications éthiques, elle a décidé de revoir ses ambitions à la baisse pour l'instant. Le déploiement est actuellement limité à un petit groupe de testeurs.
« Nous reconnaissons que générer des discours qui ressemblent à la voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale. Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans diverses industries. Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur l'opportunité et la manière de déployer cette technologie à grande échelle », a écrit l'entreprise dans un billet de blogue sur son site Web.
Parmi les entreprises ayant un accès anticipé à Voice Engine, citons la société de technologie éducative "Age of Learning", la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé de première ligne Dimagi, le créateur d'applications de communication "AI Livox" et le système de santé Lifespan. Dans les échantillons publiés par OpenAI, vous pouvez entendre ce que "Age of Learning" a fait avec l'outil pour générer du contenu en voix off préscripte, ainsi que pour lire "des réponses personnalisées en temps réel" aux étudiants, écrites par GPT-4. OpenAI a cité de nombreux cas d'utilisation pour son outil d'IA.
OpenAI a déclaré que Voice Engine pourrait être utile pour l'aide à la lecture, la traduction des langues et l'aide aux personnes souffrant de troubles soudains ou dégénératifs de l'élocution. Le billet de blogue évoque un programme pilote de l'université Brown qui a aidé un patient souffrant de troubles de la parole en créant un clone de moteur vocal à partir d'un enregistrement audio réalisé dans le cadre d'un projet scolaire. Mais cela signifie également que toute personne disposant de 15 secondes de la voix enregistrée d'une autre personne pourrait effectivement la cloner, ce qui comporte des risques d'une utilisation abusive.
Malgré les avantages potentiels, de mauvais acteurs pourraient certainement abuser de cette technologie pour se livrer à de graves imitations, ce qui est déjà un problème. Par exemple, dans le New Hampshire, les autorités enquêtent sur des automates d'appel envoyés à des milliers d'électeurs juste avant les primaires présidentielles, qui comportaient une voix générée par l'IA imitant celle du président américain Joe Biden. Un certain nombre de startups vendent déjà des technologies de clonage de voix, dont certaines sont accessibles au public ou à des clients professionnels triés sur le volet, dont les studios de divertissement.
La possibilité de cloner des voix a également déjà causé de nombreux problèmes dans le monde par le biais d'escroqueries téléphoniques où quelqu'un imite la voix d'un proche. Par ailleurs, des études ont révélé que cette technologie pouvait être utilisée pour s'introduire dans des comptes bancaires utilisant l'authentification vocale. OpenAI reconnaît que cette technologie pourrait poser des problèmes si elle était diffusée à grande échelle, c'est pourquoi il tente dans un premier temps de contourner ces problèmes en établissant un ensemble de règles. Pour obtenir un accès, les entreprises doivent respecter des exigences strictes.
[tweet]<blockquote class="twitter-tweet" data-media-max-width="560"><p lang="tr" dir="ltr">OpenAI, ses klonlama aracı Voice Engine'i tanıttı.<br><br>15 saniyelik kısa bir sesle, insan seslerini gerçekçi bir şekilde kopyalayabiliyor ve yazılan metinleri sese çevirebiliyor.<a href="https://t.co/6yNhhEGvxe">pic.twitter.com/6yNhhEGvxe</a></p>— BPT (@bpthaber) <a href="https://twitter.com/bpthaber/status/1773964120745714075?ref_src=twsrc%5Etfw">March 30, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]
OpenAI a déclaré que les premiers testeurs du moteur vocal ont accepté de ne pas usurper l'identité d'une personne sans son consentement et de révéler que les voix sont générées par l'IA. Le laboratoire d'IA a adopté une approche similaire lorsqu'il a annoncé son modèle de génération de clips vidéo Sora, sans le diffuser à grande échelle. Conformément à sa mission de déploiement prudent de la technologie, OpenAI a fourni trois recommandations sur la façon dont la société devrait changer pour s'adapter à sa technologie dans son billet de blogue. Selon l'entreprise, ces mesures devraient permettre de réduire les risques.
Ces mesures comprennent l'abandon progressif de l'authentification vocale pour les comptes bancaires, l'éducation du public pour qu'il comprenne "la possibilité d'un contenu d'IA trompeur" et l'accélération du développement de techniques permettant de suivre l'origine du contenu audio, afin qu'il soit toujours clair quand vous interagissez avec une personne réelle ou avec une IA. Le moteur de clonage de voix d'OpenAI arrive à un moment où le gouvernement américain s'efforce de limiter les utilisations non éthiques de cette technologie. Elle est de plus en plus utilisée par les acteurs malveillants dans le cadre d'escroqueries.
Face à la concurrence des outils de clonage de voix, OpenAI affirme que Voice Engine se distingue par le fait qu'il s'agit d'un "petit" modèle d'IA (nous ne savons pas à quel point il est petit). Mais comme il a été mis au point en 2022, il a presque l'impression d'être arrivé en retard à la fête. De plus, sa capacité de clonage n'est peut-être pas parfaite. Les précédents modèles de synthèse vocale formés par l'utilisateur, comme ceux d'ElevenLabs et de Microsoft, se sont heurtés à des accents qui ne faisaient pas partie de leur ensemble de données de formation. OpenAI n'a pas fourni d'autres détails sur son outil de clonage de voix.
Toutefois, une demande de marque déposée le 19 mars montre qu'OpenAI a probablement l'intention de se lancer dans la reconnaissance vocale et les assistants vocaux numériques. À terme, l'amélioration de cette technologie pourrait aider OpenAI à concurrencer d'autres produits vocaux tels qu'Alexa d'Amazon.
Source : OpenAI
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'outil de clonage de voix et de synthèse vocale d'OpenAI ?
Que pensez-vous de la décision de l'entreprise de limiter l'accès à Voice Engine pour l'instant ?
Comment peut-on limiter les risques liés à la disponibilité à grande échelle des outils de clonage de voix ?
Voir aussi
Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes
La terrifiante escroquerie à l'IA qui utilise la voix de votre proche pour simuler des situations de rançon, comment les cybercriminels se servent des avancées dans le clonage vocal
Les experts en sécurité tirent la sonnette d'alarme contre les escroqueries vocales basées sur l'IA, alors que ces types d'arnaques atteignent des sommets inégalés, selon un nouveau rapport de McAfee
OpenAI affirme pouvoir cloner une voix juste à partir d'un enregistrement audio de 15 secondes, mais juge son outil de clonage de voix trop risqué pour être diffusé à grande échelle
OpenAI affirme pouvoir cloner une voix juste à partir d'un enregistrement audio de 15 secondes, mais juge son outil de clonage de voix trop risqué pour être diffusé à grande échelle
Le , par Mathis Lucas
Une erreur dans cette actualité ? Signalez-nous-la !