Les chercheurs d'Amazon ont formé le plus grand modèle d'IA de synthèse vocale jamais conçu, appelé BASE TTS, qui présente des capacités émergentes à prononcer des phrases complexes de manière naturelle. Le modèle est le plus grand de sa catégorie avec 980 millions de paramètres et utilise 100 000 heures de données vocales du domaine public. Il peut gérer des tâches difficiles telles que l'analyse syntaxique de phrases simples, la prononciation correcte de mots étrangers et la production d'un discours émotionnel ou chuchoté. Le modèle est encore expérimental et des recherches supplémentaires sont nécessaires pour déterminer son point d'inflexion pour les capacités émergentes.Ces capacités permettent au modèle de générer une parole naturelle et expressive sans avoir été explicitement entraîné pour des scénarios spécifiques. Les chercheurs ont testé trois versions de BASE TTS, constatant que la taille du modèle et la quantité de données sont cruciales pour améliorer les performances. Les versions moyenne et grande ont surpassé les modèles existants et ont été bien évaluées par les auditeurs humains.
« Nous présentons un modèle de synthèse vocale appelé BASE TTS, qui signifie Big Adaptive Streamable TTS with Emergent abilities. BASE TTS est le plus grand modèle de synthèse vocale à ce jour, entraîné sur 100 000 heures de données vocales du domaine public, atteignant un nouvel état de l'art en matière de naturel de la parole. Il déploie un transformateur autorégressif d'un milliard de paramètres qui convertit les textes bruts en codes discrets ("speechcodes"
BASE TTS
Comme les travaux récents sur la modélisation de la parole, nous adoptons une méthode basée sur le LLM pour la tâche TTS (Figure 1). Les chercheurs ont considéré un ensemble de données D={xi,yi}N i=0, où y est un échantillon audio et x={x1,--- ,xT} est la transcription textuelle correspondante. L'audio y={y1,--- ,yS} est représenté par une séquence de S jetons discrets (codes de parole), appris à l'aide d'un synthétiseur de parole entraîné séparément. Ils utilisent un modèle auto-régressif basé sur un transformateur avec des paramètres ϕ afin d'apprendre la probabilité conjointe des séquences textuelles et audio :
Les mots prédits sont concaténés avec les enregistrements du locuteur et décodés en formes d'ondes à l'aide d'un décodeur de code vocal entraîné séparément et composé de couches linéaires et de convolution.
Vue d'ensemble de BASE TTS. Le synthétiseur de parole (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur de code vocal (3) convertit les représentations vocales prédites en une forme d'onde.
Ces travaux représentent une avancée majeure dans la synthèse vocale en développant le modèle Big Adaptive Streamable Text-to-speech (BASE TTS) avec des « capacités émergentes ». BASE TTS est également "streamable", adapté aux applications en temps réel. Les chercheurs ont souligné des avantages tels que la génération de parole à la volée et la proposition d'une méthode pour améliorer l'expressivité tout en conservant une faible bande passante. Cependant, ils ont reconnu les risques potentiels, tels que l'abus par des acteurs malveillants, et ont décidé de ne pas rendre public le modèle ou les données. L'article a été présenté à la Conférence ICASSP 2024, encourageant des recherches futures sur les capacités émergentes des modèles TTS.
Le modèle de synthèse vocale Big Adaptive Streamable Text-to-speech existe en trois versions avec différentes tailles de paramètres et sources de données. La version la plus grande, BASE-large, comprend 980 millions de paramètres et utilise 100 000 heures de discours provenant principalement du domaine public, comprenant l'anglais, l'allemand, le néerlandais et l'espagnol. La version intermédiaire, BASE-medium, possède 400 millions de paramètres et utilise 10 000 heures de discours, tandis que la plus petite version, BASE-small, compte 150 millions de paramètres et se base sur 1 000 heures de discours.
Les chercheurs ont évalué les performances des trois modèles sur diverses tâches difficiles pour les modèles de synthèse vocale, telles que la prononciation de noms composés, l'expression d'émotions, la gestion de mots étrangers, la paralinguistique (non-mots lisibles), la ponctuation, la formulation de questions et la gestion de complexités syntaxiques. Les résultats ont montré que BASE-medium et BASE-large surpassent nettement BASE-small et d'autres modèles existants, tels que Tortoise et VALL-E, sur ces tâches, obtenant également de meilleures évaluations de la part des auditeurs humains en termes de qualité et de naturel de la parole.
Ces résultats indiquent que la taille du modèle et la quantité de données sont des facteurs déterminants pour les capacités émergentes des modèles de synthèse vocale.
En ce qui concerne les avantages de BASE TTS, les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
