Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public,

Il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries

Le 19 juin 2023 à 12:49, par Bill Fassinou

72PARTAGES

Meta a récemment dévoilé un nouveau système d'IA de génération de la parole appelé Voicebox. Il s'agit d'une plateforme permettant de générer des dialogues vocaux avec une variété de cas d'utilisation potentiels, y compris des tâches de génération vocale pour lesquelles elle n'a pas été spécifiquement formée. Toutefois, Meta admet que Voicebox est sujet à des abus potentiels, notamment l'utilisation pour la création de deepfakes ou la mise en place d'escroqueries. En raison des risques d'abus, la société a déclaré qu'elle ne publiera pas Voicebox pour l'instant. Elle a expliqué à la communauté qu'il est nécessaire de trouver un juste équilibre entre ouverture et responsabilité.

L'IA générative est un type de programme capable de générer du texte et des images ou d'autres médias en réponse à des demandes de l'utilisateur. Voicebox de Meta est un système qui synthétise la parole à partir d'un texte et peut être utilisé pour diverses tâches vocales. Voicebox génère des voix réalistes et expressives et permet d'adopter des attributs tels que le ton, le style ou l'accent à partir de fichiers audio. « Voicebox peut produire des clips audio de haute qualité et éditer des fichiers audio préenregistrés, par exemple en supprimant les klaxons de voiture ou les aboiements de chien, tout en préservant le contenu et le style de l'audio », explique Meta.

L'annonce de Meta indique que Voicebox est multilingue et qu'il peut produire de la parole en six langues, dont l'anglais, le français, l'allemand, l'espagnol, le portugais, et le polonais. Selon Meta, Voicebox surpasse les modèles de synthèse vocale existants, tels que VALL-E de Microsoft, en matière de qualité et de naturel de la parole. « En tant que premier modèle polyvalent et efficace qui réussit à généraliser les tâches, nous pensons que Voicebox pourrait ouvrir une nouvelle ère d'IA générative pour la parole », expliquent les chercheurs de Meta AI. L'équipe a déclaré que Voicebox a été entraîné sur plus de 50 000 heures de données audio non filtrées.

Plus précisément, l'équipe a utilisé la parole enregistrée et les transcriptions d'un ensemble de livres audio du domaine public. Ainsi, Voicebox peut générer un discours plus conversationnel, quelle que soit la langue parlée par les deux parties. Meta affirme : « nos résultats montrent que les modèles de reconnaissance vocale formés sur la parole synthétique générée par Voicebox sont presque aussi performants que les modèles formés sur la parole réelle ». De plus, selon l'équipe, la parole générée par ordinateur n'a subi qu'une dégradation de 1 % du taux d'erreur, alors que les modèles de reconnaissance vocale existants enregistrent une baisse de 45 à 70 %.

Les outils de synthèse vocale existent depuis longtemps. C'est grâce à ces outils que les TomTom pouvaient donner des indications routières douteuses avec la voix de Morgan Freeman. Les versions modernes comme Speechify ou Prime Voice AI d'Elevenlab sont bien plus performantes, mais elles nécessitent toujours des montagnes de matériel source pour imiter correctement leur sujet, puis une autre montagne de données différentes pour chaque autre sujet sur lequel vous voulez l'entraîner. Ce n'est pas le cas de Voicebox de Meta. Celui-ci utilise une nouvelle méthode d'apprentissage de la synthèse vocale à partir de zéro, que Meta appelle Flow Matching.

Les résultats des tests ne sont même pas proches, car l'IA de Meta aurait surpassé l'état actuel de la technique en termes d'intelligibilité (avec un taux d'erreur de 1,9 % contre 5,9 %) et fonctionnerait jusqu'à 20 fois plus vite que les meilleurs modèles d'IA de synthèse vocale existants. Enfin, Voicebox serait en outre capable d'éditer activement des clips audio, en éliminant le bruit de la parole et même en remplaçant les mots mal prononcés. « Une personne pourrait identifier le segment brut de la parole qui est corrompu par le bruit (comme l'aboiement d'un chien), le recadrer et demander au modèle d'IA de régénérer ce segment », explique l'équipe.

Meta suggère que l'outil peut être utilisé pour améliorer les conversations d'une langue à l'autre à l'aide d'outils technologiques, ou pour produire des dialogues plus naturels pour les personnages de jeux vidéo. Mais Voicebox semble aussi être un moyen plus rapide et plus économique de créer des dialogues "deepfake", c'est-à-dire de faire croire que quelqu'un (peut-être une personnalité publique ou une célébrité) a dit quelque chose qu'il n'a pas dit en réalité. Meta a également reconnu le risque d'utilisation abusive, en déclarant que l'entreprise a développé des classificateurs qui font la distinction entre les créations de Voicebox et les humains.

À l'instar des filtres antispam, les classificateurs d'IA sont des programmes qui trient les données en différents groupes ou classes - dans ce cas, humains ou générés par l'IA. Meta a souligné le besoin de transparence dans le développement de l'IA dans le billet de blogue présentant Voicebox, affirmant qu'il est crucial d'être ouvert à la communauté des chercheurs. Cependant, l'entreprise a également déclaré qu'elle n'avait pas l'intention de rendre la Voicebox accessible au public en raison des risques d'exploitation de la technologie à des fins négatives. Ainsi, Meta ne publiera ni l'application Voicebox ni le code source du modèle d'IA.

Introducing Voicebox, a new breakthrough generative speech system based on Flow Matching, a new method proposed by Meta AI. It can synthesize speech across six languages, perform noise removal, edit content, transfer audio style & more.

More details on this work & examples ⬇️
— Meta AI (@MetaAI) June 16, 2023

« Il existe de nombreux cas d'utilisation passionnants pour les modèles d'IA de synthèse de la parole, mais en raison des risques d'utilisation abusive, nous ne rendons pas le modèle ou le code de Voicebox accessible au public pour le moment. Nous pensons qu'il est important d'être ouvert à la communauté de l'IA et de partager nos recherches pour faire progresser l'état de l'art en matière d'IA, mais il est également nécessaire de trouver un juste équilibre entre l'ouverture et la responsabilité », a déclaré Meta. En revanche, l'entreprise a publié une série d'exemples audio ainsi qu'un premier document de recherche sur le programme.

Cette année, il a été rapporté qu'un couple canadien a perdu 21 000 dollars à la suite d'une astucieuse fraude...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public,

Il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public, Il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries

Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public,

Il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries