L'IA générative est un type de programme capable de générer du texte et des images ou d'autres médias en réponse à des demandes de l'utilisateur. Voicebox de Meta est un système qui synthétise la parole à partir d'un texte et peut être utilisé pour diverses tâches vocales. Voicebox génère des voix réalistes et expressives et permet d'adopter des attributs tels que le ton, le style ou l'accent à partir de fichiers audio. « Voicebox peut produire des clips audio de haute qualité et éditer des fichiers audio préenregistrés, par exemple en supprimant les klaxons de voiture ou les aboiements de chien, tout en préservant le contenu et le style de l'audio », explique Meta.
L'annonce de Meta indique que Voicebox est multilingue et qu'il peut produire de la parole en six langues, dont l'anglais, le français, l'allemand, l'espagnol, le portugais, et le polonais. Selon Meta, Voicebox surpasse les modèles de synthèse vocale existants, tels que VALL-E de Microsoft, en matière de qualité et de naturel de la parole. « En tant que premier modèle polyvalent et efficace qui réussit à généraliser les tâches, nous pensons que Voicebox pourrait ouvrir une nouvelle ère d'IA générative pour la parole », expliquent les chercheurs de Meta AI. L'équipe a déclaré que Voicebox a été entraîné sur plus de 50 000 heures de données audio non filtrées.
Plus précisément, l'équipe a utilisé la parole enregistrée et les transcriptions d'un ensemble de livres audio du domaine public. Ainsi, Voicebox peut générer un discours plus conversationnel, quelle que soit la langue parlée par les deux parties. Meta affirme : « nos résultats montrent que les modèles de reconnaissance vocale formés sur la parole synthétique générée par Voicebox sont presque aussi performants que les modèles formés sur la parole réelle ». De plus, selon l'équipe, la parole générée par ordinateur n'a subi qu'une dégradation de 1 % du taux d'erreur, alors que les modèles de reconnaissance vocale existants enregistrent une baisse de 45 à 70 %.
Les outils de synthèse vocale existent depuis longtemps. C'est grâce à ces outils que les TomTom pouvaient donner des indications routières douteuses avec la voix de Morgan Freeman. Les versions modernes comme Speechify ou Prime Voice AI d'Elevenlab sont bien plus performantes, mais elles nécessitent toujours des montagnes de matériel source pour imiter correctement leur sujet, puis une autre montagne de données différentes pour chaque autre sujet sur lequel vous voulez l'entraîner. Ce n'est pas le cas de Voicebox de Meta. Celui-ci utilise une nouvelle méthode d'apprentissage de la synthèse vocale à partir de zéro, que Meta appelle Flow Matching.
Les résultats des tests ne sont même pas proches, car l'IA de Meta aurait surpassé l'état actuel de la technique en termes d'intelligibilité (avec un taux d'erreur de 1,9 % contre 5,9 %) et fonctionnerait jusqu'à 20 fois plus vite que les meilleurs modèles d'IA de synthèse vocale existants. Enfin, Voicebox serait en outre capable d'éditer activement des clips audio, en éliminant le bruit de la parole et même en remplaçant les mots mal prononcés. « Une personne pourrait identifier le segment brut de la parole qui est corrompu par le bruit (comme l'aboiement d'un chien), le recadrer et demander au modèle d'IA de régénérer ce segment », explique l'équipe.
Meta suggère que l'outil peut être utilisé pour améliorer les conversations d'une langue à l'autre à l'aide d'outils technologiques, ou pour produire des dialogues plus naturels pour les personnages de jeux vidéo. Mais Voicebox semble aussi être un moyen plus rapide et plus économique de créer des dialogues "deepfake", c'est-à-dire de faire croire que quelqu'un (peut-être une personnalité publique ou une célébrité) a dit quelque chose qu'il n'a pas dit en réalité. Meta a également reconnu le risque d'utilisation abusive, en déclarant que l'entreprise a développé des classificateurs qui font la distinction entre les créations de Voicebox et les humains.
À l'instar des filtres antispam, les classificateurs d'IA sont des programmes qui trient les données en différents groupes ou classes - dans ce cas, humains ou générés par l'IA. Meta a souligné le besoin de transparence dans le développement de l'IA dans le billet de blogue présentant Voicebox, affirmant qu'il est crucial d'être ouvert à la communauté des chercheurs. Cependant, l'entreprise a également déclaré qu'elle n'avait pas l'intention de rendre la Voicebox accessible au public en raison des risques d'exploitation de la technologie à des fins négatives. Ainsi, Meta ne publiera ni l'application Voicebox ni le code source du modèle d'IA.
[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Introducing Voicebox, a new breakthrough generative speech system based on Flow Matching, a new method proposed by Meta AI. It can synthesize speech across six languages, perform noise removal, edit content, transfer audio style & more.<br><br>More details on this work & examples ⬇️</p>— Meta AI (@MetaAI) <a href="https://twitter.com/MetaAI/status/1669766837981306880?ref_src=twsrc%5Etfw">June 16, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/tweet]
« Il existe de nombreux cas d'utilisation passionnants pour les modèles d'IA de synthèse de la parole, mais en raison des risques d'utilisation abusive, nous ne rendons pas le modèle ou le code de Voicebox accessible au public pour le moment. Nous pensons qu'il est important d'être ouvert à la communauté de l'IA et de partager nos recherches pour faire progresser l'état de l'art en matière d'IA, mais il est également nécessaire de trouver un juste équilibre entre l'ouverture et la responsabilité », a déclaré Meta. En revanche, l'entreprise a publié une série d'exemples audio ainsi qu'un premier document de recherche sur le programme.
Cette année, il a été rapporté qu'un couple canadien a perdu 21 000 dollars à la suite d'une astucieuse fraude téléphonique. L'escroquerie aurait réussi grâce à une IA de synthèse vocale. Selon Washington Post, le couple a reçu un appel se faisant passer pour leur fils, qui avait besoin d'argent pour payer sa caution parce qu'il avait des ennuis judiciaires. Les parents ont obéi lorsqu'on leur a demandé de transférer les fonds sur un certain compte bancaire. Plus tard, ils ont découvert que l'appel avait été passé par une voix générée par l'IA qui avait imité la voix de leur fils à l'aide d'une technologie deepfake, et non celle de leur enfant.
À l'avenir, l'équipe de recherche de Meta espère que Voicebox trouvera sa place dans les prothèses pour les patients souffrant de lésions des cordes vocales, les PNJ dans les jeux vidéo et les assistants numériques. Alors que les outils d'IA, en particulier les chatbots, sont devenus plus courants depuis le lancement de ChatGPT d'OpenAI en novembre dernier, les progrès rapides de l'intelligence artificielle ont amené les dirigeants mondiaux à tirer la sonnette d'alarme quant à l'utilisation potentiellement abusive de la technologie. Récemment, le secrétaire général de l'ONU a réitéré la nécessité de prendre au sérieux les avertissements concernant l'IA générative.
« Les sonnettes d'alarme concernant la dernière forme d'IA, l'IA générative, sont assourdissantes, et ce sont les développeurs qui l'ont conçue qui les tirent le plus fort. Les scientifiques et les experts en IA ont appelé le monde à agir, déclarant que l'IA est une menace existentielle pour l'humanité au même titre que le risque de guerre nucléaire », a déclaré le Secrétaire général de l'ONU, Antonio Guterres, lors d'une conférence de presse. Mais d'autres experts comme Yann LeCun, considéré comme le père de l'apprentissage profond, rejettent ces allégations. LeCun affirme qu'à l'heure actuelle, l'IA est encore d'atteindre le niveau d'intelligence d'un chien.
Source : Meta
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi
Meta dévoile son propre modèle de langage appelé LLaMA, fonctionnant comme un chatbot d'IA ordinaire, et indique qu'il est plus puissant et moins gourmand en ressources que ses concurrents
Révolutionner la publicité grâce à un bot perfectionné, la vision ambitieuse de Mark Zuckerberg pour l'IA, Meta envisage un avenir où les agences de publicité deviendront inutiles pour les marques
Guidance, un langage pour le contrôle des grands modèles linguistiques modernes, il serait plus efficace et plus efficient que l'invite ou le chaînage traditionnel