Les chercheurs d'Amazon ont formé le plus grand modèle d'IA de synthèse vocale jamais conçu, appelé BASE TTS, qui présente des capacités émergentes à prononcer des phrases complexes de manière naturelle. Le modèle est le plus grand de sa catégorie avec 980 millions de paramètres et utilise 100 000 heures de données vocales du domaine public. Il peut gérer des tâches difficiles telles que l'analyse syntaxique de phrases simples, la prononciation correcte de mots étrangers et la production d'un discours émotionnel ou chuchoté. Le modèle est encore expérimental et des recherches supplémentaires sont nécessaires pour déterminer son point d'inflexion pour les capacités émergentes.
Ces capacités permettent au modèle de générer une parole naturelle et expressive sans avoir été explicitement entraîné pour des scénarios spécifiques. Les chercheurs ont testé trois versions de BASE TTS, constatant que la taille du modèle et la quantité de données sont cruciales pour améliorer les performances. Les versions moyenne et grande ont surpassé les modèles existants et ont été bien évaluées par les auditeurs humains.
« Nous présentons un modèle de synthèse vocale appelé BASE TTS, qui signifie Big Adaptive Streamable TTS with Emergent abilities. BASE TTS est le plus grand modèle de synthèse vocale à ce jour, entraîné sur 100 000 heures de données vocales du domaine public, atteignant un nouvel état de l'art en matière de naturel de la parole. Il déploie un transformateur autorégressif d'un milliard de paramètres qui convertit les textes bruts en codes discrets ("speechcodes", suivi d'un décodeur à convolution qui convertit ces speechcodes en formes d'onde de manière incrémentale et fluide. En outre, nos speechcodes sont construits à l'aide d'une nouvelle technique de tokenisation de la parole qui permet de démêler l'identité du locuteur et de la compresser avec un encodage par paire d'octets. », déclarent les chercheurs d’Amazon.
BASE TTS
Comme les travaux récents sur la modélisation de la parole, nous adoptons une méthode basée sur le LLM pour la tâche TTS (Figure 1). Les chercheurs ont considéré un ensemble de données D={xi,yi}N i=0, où y est un échantillon audio et x={x1,--- ,xT} est la transcription textuelle correspondante. L'audio y={y1,--- ,yS} est représenté par une séquence de S jetons discrets (codes de parole), appris à l'aide d'un synthétiseur de parole entraîné séparément. Ils utilisent un modèle auto-régressif basé sur un transformateur avec des paramètres ϕ afin d'apprendre la probabilité conjointe des séquences textuelles et audio :
Les mots prédits sont concaténés avec les enregistrements du locuteur et décodés en formes d'ondes à l'aide d'un décodeur de code vocal entraîné séparément et composé de couches linéaires et de convolution.
Vue d'ensemble de BASE TTS. Le synthétiseur de parole (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur de code vocal (3) convertit les représentations vocales prédites en une forme d'onde.
Ces travaux représentent une avancée majeure dans la synthèse vocale en développant le modèle Big Adaptive Streamable Text-to-speech (BASE TTS) avec des « capacités émergentes ». BASE TTS est également "streamable", adapté aux applications en temps réel. Les chercheurs ont souligné des avantages tels que la génération de parole à la volée et la proposition d'une méthode pour améliorer l'expressivité tout en conservant une faible bande passante. Cependant, ils ont reconnu les risques potentiels, tels que l'abus par des acteurs malveillants, et ont décidé de ne pas rendre public le modèle ou les données. L'article a été présenté à la Conférence ICASSP 2024, encourageant des recherches futures sur les capacités émergentes des modèles TTS.
Le modèle de synthèse vocale Big Adaptive Streamable Text-to-speech existe en trois versions avec différentes tailles de paramètres et sources de données. La version la plus grande, BASE-large, comprend 980 millions de paramètres et utilise 100 000 heures de discours provenant principalement du domaine public, comprenant l'anglais, l'allemand, le néerlandais et l'espagnol. La version intermédiaire, BASE-medium, possède 400 millions de paramètres et utilise 10 000 heures de discours, tandis que la plus petite version, BASE-small, compte 150 millions de paramètres et se base sur 1 000 heures de discours.
Les chercheurs ont évalué les performances des trois modèles sur diverses tâches difficiles pour les modèles de synthèse vocale, telles que la prononciation de noms composés, l'expression d'émotions, la gestion de mots étrangers, la paralinguistique (non-mots lisibles), la ponctuation, la formulation de questions et la gestion de complexités syntaxiques. Les résultats ont montré que BASE-medium et BASE-large surpassent nettement BASE-small et d'autres modèles existants, tels que Tortoise et VALL-E, sur ces tâches, obtenant également de meilleures évaluations de la part des auditeurs humains en termes de qualité et de naturel de la parole.
Ces résultats indiquent que la taille du modèle et la quantité de données sont des facteurs déterminants pour les capacités émergentes des modèles de synthèse vocale.
En ce qui concerne les avantages de BASE TTS, les chercheurs ont souligné sa capacité à générer de la parole à la volée, faisant du modèle un choix adapté aux applications en temps réel comme les assistants vocaux ou les livres audio. De plus, ils ont proposé une méthode pour encoder et transmettre les métadonnées de la parole, telles que l'émotion, la prosodie et l'accent, dans un flux séparé à faible bande passante, améliorant ainsi l'expressivité sans compromettre la qualité audio.
Bien que les chercheurs estiment que leurs travaux représentent une avancée pour la technologie TTS en démontrant la capacité des modèles à produire un discours naturel et varié pour divers scénarios, ils reconnaissent également les risques potentiels liés à l'utilisation malveillante de leur technologie. Par conséquent, ils ont pris la décision de ne pas rendre publics le modèle ou les données. L'article, intitulé Big Adaptive Streamable TTS with Emergent Abilities, a été présenté à la Conférence internationale sur l'acoustique, la parole et le traitement du signal (ICASSP) 2024.
Les risques et les réalisations de Voicebox, VALL-E et BASE TTS
En comparaison, Meta a récemment dévoilé Voicebox, un nouveau système d'IA de génération de la parole qui synthétise des dialogues vocaux avec une variété de cas d'utilisation potentiels, y compris des tâches de génération vocale non spécifiquement formées. Bien que Voicebox puisse générer des voix réalistes et expressives en six langues, Meta a admis les risques potentiels d'abus, tels que la création de deepfakes ou les escroqueries, et a décidé de ne pas publier Voicebox pour le moment. L'entreprise souligne la nécessité de trouver un équilibre entre ouverture et responsabilité dans le développement de telles technologies.
Voicebox, basé sur la méthode d'apprentissage appelée Flow Matching, dépasse les modèles de synthèse vocale existants en termes de qualité et de naturel de la parole, selon Meta. Il a été entraîné sur plus de 50 000 heures de données audio non filtrées, utilisant des enregistrements et des transcriptions de livres audio du domaine public. Les chercheurs affirment que les modèles de reconnaissance vocale formés sur la parole synthétique de Voicebox sont presque aussi performants que ceux formés sur la parole réelle, avec seulement une dégradation de 1 % du taux d'erreur par rapport à des baisses de 45 à 70 % pour les modèles existants.
L'IA générative suscite des préoccupations éthiques, notamment le risque d'utilisation abusive pour la création de deepfakes. Meta a développé des classificateurs pour distinguer les créations de Voicebox des voix humaines, soulignant l'importance de la transparence dans le développement de l'IA. Cependant, malgré la volonté de partager la recherche avec la communauté, Meta n'a pas l'intention de rendre Voicebox accessible au public en raison des risques d'exploitation de la technologie à des fins négatives.
Dans un contexte similaire, Microsoft a lancé VALL-E, un modèle de langage pour la synthèse vocale qui a été formé sur 60 000 heures de données vocales en anglais. VALL-E utilise la technologie EnCodec de Meta, une méthode de compression audio basée sur l'IA, pour générer des codes de codec audio discrets à partir d'invites textuelles et acoustiques. Bien que VALL-E puisse reproduire les émotions, le ton et même l'environnement acoustique d'un échantillon audio, son utilisation soulève des préoccupations éthiques similaires à celles de Voicebox.
Par ailleurs, ReadSpeaker a développé un plugin de synthèse vocale runtime dynamique pour les moteurs de jeu Unreal et Unity, permettant aux développeurs de créer et de modifier la voix des signaux audio avec une latence quasi nulle. Cette innovation vise à améliorer l'accessibilité des jeux vidéo en offrant une narration d'écran et des descriptions audio, tout en soulignant le besoin d'offrir des expériences de meilleure qualité aux joueurs dans les environnements numériques et le métavers.
L'avancée des chercheurs d'Amazon avec le modèle BASE TTS dans le domaine de la synthèse vocale représente sans aucun doute une percée majeure. Le modèle, avec ses 980 millions de paramètres, surpasse les modèles existants en matière de capacités émergentes, offrant la possibilité de prononcer des phrases complexes de manière naturelle. L'utilisation de 100 000 heures de données vocales du domaine public renforce son potentiel, capable de gérer des tâches complexes telles que l'analyse syntaxique et la prononciation correcte de mots étrangers. Cependant, il est important de noter que le modèle est encore expérimental, nécessitant des recherches supplémentaires pour déterminer ses limites en matière de capacités émergentes.
Globalement, ces avancées technologiques ouvrent des perspectives prometteuses, mais soulèvent également des préoccupations éthiques et de sécurité qui nécessitent une attention particulière. L'équilibre entre l'innovation et la responsabilité devient essentiel dans le développement et la mise en œuvre de ces technologies émergentes.
Source : Amazon (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Quels sont selon vous, les critères spécifiques qui définissent la « naturelle et expressive » dans la génération de parole, et comment ces critères ont-ils été mesurés dans l'évaluation du modèle BASE TTS ?
En quoi la méthode de génération "streamable" de BASE TTS diffère-t-elle des autres modèles de synthèse vocale, et comment cette caractéristique impacte-t-elle la performance dans des applications en temps réel ?
Les chercheurs ont souligné l'importance de la taille du modèle et de la quantité de données. Quels peuvent être les compromis potentiels associés à l'utilisation de modèles massifs en termes de ressources, d'énergie et de coûts, et comment ces facteurs ont-ils été pris en compte dans l'évaluation ?
Voir aussi :
ReadSpeaker présente le premier plugin de synthèse vocale runtime dynamique multiplateforme pour les moteurs Unreal et Unity, permettant de donner une voix aux personnages non joueurs
VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur
Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public, il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries
BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon,
Entraîné sur 100 000 heures de données vocales du domaine public
BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon,
Entraîné sur 100 000 heures de données vocales du domaine public
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !