Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 de 2022 sur les plus grandes entreprises des États-Unis en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologie de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).
L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis. Ces machines peuvent être appelées "IA".
Selon l'équipe de Microsoft qui a présenté VALL-E 2, il s'agit du premier système à atteindre des performances de niveau humain pour générer de la parole à partir de texte, même pour des locuteurs inconnus ne disposant que d'un court échantillon de parole. Il peut créer de manière fiable des phrases complexes ou comportant de nombreuses répétitions.
Les logiciels disponibles dans le commerce, comme ElevenLabs, sont capables de cloner des voix, mais nécessitent un matériel de référence plus long. VALL-E 2 peut le faire en quelques secondes.
VALL-E 2 s'appuie sur son prédécesseur VALL-E datant de début 2023 et utilise des modèles de langage à codecs neuronaux pour générer la parole. Ces modèles apprennent à représenter la parole comme une séquence de codes, à l'instar de la compression audio numérique. Deux améliorations clés rendent cette percée possible.
VALL-E 2 apporte deux innovations majeures
Premièrement, VALL-E 2 utilise une nouvelle méthode "Repetition Aware Sampling" pour le processus de décodage, où les codes appris sont convertis en paroles audibles. La sélection des codes s'adapte dynamiquement à leur répétition dans la séquence de sortie précédente.
Au lieu de sélectionner au hasard les codes possibles comme VALL-E, VALL-E 2 passe intelligemment d'une méthode d'échantillonnage à l'autre : Le "Nucleus Sampling" ne prend en compte que les codes les plus probables, tandis que l'échantillonnage aléatoire traite toutes les possibilités de la même manière. Cette commutation adaptative améliore considérablement la stabilité du processus de décodage et évite les problèmes tels que les boucles infinies.
La deuxième innovation majeure consiste à modéliser les codes des codecs en groupes plutôt qu'individuellement. VALL-E 2 combine plusieurs codes consécutifs et les traite ensemble comme une sorte de "cadre". Ce regroupement de codes raccourcit la séquence d'entrée pour le modèle linguistique, ce qui accélère le traitement. En même temps, cette approche améliore la qualité de la parole générée en simplifiant le traitement des contextes très longs.
Lors d'expériences menées sur les ensembles de données LibriSpeech et VCTK, VALL-E 2 a largement dépassé les performances humaines en termes de robustesse, de naturel et de similarité de la parole générée. Des enregistrements de 3 secondes des locuteurs cibles ont suffi. Avec des échantillons plus longs de 10 secondes, le système a obtenu des résultats nettement meilleurs. Microsoft a publié tous les exemples sur ce site web.
Les chercheurs soulignent que la formation de VALL-E 2 ne nécessite que des paires d'enregistrements vocaux et leurs transcriptions sans codes temporels.
Pas de publication en raison du risque élevé d'utilisation abusive
Selon les chercheurs, VALL-E 2 pourrait être utilisé dans de nombreux domaines tels que l'éducation, le divertissement, l'accessibilité ou la traduction. Cependant, ils soulignent également les risques évidents d'utilisation abusive, comme l'imitation de voix sans le consentement de l'interlocuteur. Par conséquent, il s'agit pour l'instant d'un pur projet de recherche et Microsoft ne prévoit pas d'intégrer VALL-E 2 dans un produit ou d'en étendre l'accès au public.
Selon eux, il faudrait d'abord mettre au point un protocole permettant de s'assurer que la personne entendue a consenti à la synthèse, ainsi qu'une méthode de marquage numérique de ces contenus. Cette proposition s'inspire vraisemblablement de l'évolution de l'industrie des modèles d'images d'IA, où des filigranes comme le C2PA sont introduits. Cependant, ils ne résolvent pas le problème existant de la reconnaissance fiable du contenu généré par l'IA en tant que tel.
Sur la page du projet, Microsoft a présenté quelques détails concernant VALL-E 2 :
VALL-E 2 est la dernière avancée en matière de modèles de langage à codecs neuronaux qui marque une étape importante dans la synthèse de la parole à partir du texte (TTS), atteignant pour la première fois la parité avec l'humain.
S'appuyant sur les fondements posés par son prédécesseur, VALL-E, la nouvelle itération introduit deux améliorations significatives pour accroître ses performances : Le "Repetition Aware Sampling" affine le processus original d'échantillonnage du noyau en tenant compte de la répétition des jetons dans l'historique du décodage. Il permet non seulement de stabiliser le décodage, mais aussi de contourner le problème de boucle infinie rencontré dans VALL-E. La modélisation des codes groupés organise les codes des codecs en groupes afin de raccourcir efficacement la longueur de la séquence, ce qui permet non seulement d'augmenter la vitesse d'inférence, mais aussi de relever les défis de la modélisation des longues séquences.
Nos expériences, menées sur les ensembles de données LibriSpeech et VCTK, ont montré que VALL-E 2 surpasse les précédents systèmes TTS sans prise de vue en termes de robustesse de la parole, de naturel et de similarité avec le locuteur. C'est le premier système de ce type à atteindre la parité humaine sur ces critères de référence. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases qui sont traditionnellement difficiles à prononcer en raison de leur complexité ou de leur caractère répétitif.
Cette présentation est uniquement destinée à des fins de recherche et de démonstration. Actuellement, nous n'avons pas l'intention d'intégrer VALL-E 2 dans un produit ou d'en élargir l'accès au public.
VALL-E 2 atteint pour la première fois la parité humaine en matière de performance TTS sans prise de vue. Dans ce contexte, la parité humaine indique que les mesures de robustesse, de naturel et de similarité de VALL-E 2 surpassent celles des échantillons de vérité terrain ( WER( GroundTruth) - WER(VALL-E 2) >0, CMOS(VALL-E 2) - CMOS(GroundTruth) >0, et SMOS(VALL-E 2) - SMOS(GroundTruth)>0), ce qui signifie que VALL-E 2 peut générer une parole précise et naturelle dans la voix exacte du locuteur d'origine, comparable à la performance humaine. Il est important de noter que cette conclusion est tirée uniquement des résultats expérimentaux obtenus sur les ensembles de données LibriSpeech et VCTK.
VALL-E 2 est un projet de recherche. Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'en étendre l'accès au public. VALL-E 2 pourrait synthétiser la parole en conservant l'identité du locuteur et pourrait être utilisé pour l'apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctions d'accessibilité, les systèmes de réponse vocale interactifs, la traduction, les chatbots, et ainsi de suite.
Bien que VALL-E 2 puisse parler d'une voix semblable à celle du locuteur, la similitude et le naturel dépendent de la longueur et de la qualité de l'invite vocale, du bruit de fond, ainsi que d'autres facteurs. L'utilisation abusive du modèle peut comporter des risques potentiels, tels que l'usurpation de l'identification de la voix ou l'usurpation de l'identité d'un locuteur spécifique. Nous avons mené les expériences en supposant que l'utilisateur accepte d'être le locuteur cible de la synthèse vocale. Si le modèle est généralisé à des locuteurs inconnus dans le monde réel, il devrait inclure un protocole garantissant que le locuteur approuve l'utilisation de sa voix et d'un modèle de détection de la parole synthétisée. Si vous soupçonnez que VALL-E 2 est utilisé de manière abusive ou illégale, ou qu'il porte atteinte à vos droits ou à ceux d'autres personnes, vous pouvez le signaler.
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des performances de VALL-E 2 par rapport aux autres technologies de synthèse vocale ?
Voir aussi :
VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur
BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon, entraîné sur 100 000 heures de données vocales du domaine public
Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public, il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries