IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba rend open source la suite de modèles d'IA Qwen3-TTS, offrant une génération multilingue de la parole à très faible latence, ainsi qu'une prise en charge complète du clonage et de la conception vocale

Le , par Anthony

6PARTAGES

4  0 
Le géant chinois Alibaba a ouvert le code source de sa suite de modèles Qwen3-TTS, une famille de modèles d'intelligence artificielle (IA) de synthèse de la parole capable de générer des voix fluides et expressives dans plusieurs langues en temps quasi réel. Déclinée en deux versions de 1,7 milliard et 0,6 milliard de paramètres, cette technologie prend en charge jusqu'à dix langues majeures, dont le français, et permet le clonage de voix, la conception vocale ainsi que le contrôle vocal à l'aide d'instructions en langage naturel fournies par l'utilisateur. Grâce à une architecture légère et à un encodage acoustique propriétaire, Qwen3-TTS promet une génération vocale à très faible latence, désormais accessible aux développeurs via GitHub et l’API Qwen.

Alibaba Cloud, également connu sous le nom d'Aliyun, est une société de cloud computing, filiale du groupe Alibaba, dont le siège social est situé à Singapour. Elle fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Elle développe également la famille de grands modèles de langage Qwen, parmi lesquels de nombreuses variantes sont distribuées en tant que modèles open source sous licence Apache 2.0, tandis que d'autres sont proposées via Alibaba Cloud.

Qwen3-TTS est une série de puissantes fonctionnalités de génération vocale développées par Qwen, offrant une prise en charge complète pour le clonage vocal, la conception vocale, la génération vocale à haute qualité semblable à celle d'un humain et le contrôle vocal basé sur le langage naturel. Elle fournit aux développeurs et aux utilisateurs un ensemble complet de fonctionnalités de génération vocale disponible.


Grâce à l'encodeur vocal Qwen3-TTS-Tokenizer-12Hz à multi-codebook, Qwen3-TTS permet une compression efficace et une représentation robuste des signaux vocaux. Cela permet non seulement de préserver entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, mais aussi de reconstruire la parole à grande vitesse et avec une grande fidélité grâce à une architecture légère non DiT. Qwen3-TTS atteint par ailleurs des vitesses de génération de streaming bidirectionnel élevées, le premier paquet audio étant livré après le traitement d'un seul caractère, grâce à la modélisation Dual-Track.

Les modèles prennent en charge 10 langues courantes (chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol et italien) ainsi que divers dialectes afin de répondre aux exigences des applications internationales. De plus, les modèles font preuve d'une solide compréhension contextuelle, ce qui leur permet d'adapter le ton, le rythme et l'expression émotionnelle en fonction des instructions et de la sémantique du texte, tout en améliorant considérablement la robustesse face au bruit du texte saisi. La suite de modèles Qwen3-TTS est désormais disponible en open source sur GitHub et accessible via l'API Qwen.

Principales fonctionnalités de Qwen3-TTS

  • Représentation vocale puissante : grâce au Qwen3-TTS-Tokenizer-12Hz développé en interne, Qwen3-TTS permet une compression acoustique efficace et une modélisation sémantique haute dimension des signaux vocaux. Il préserve entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, permettant une reconstruction vocale rapide et haute fidélité grâce à une architecture légère non DiT.
  • Architecture universelle de bout en bout : grâce à une architecture LM à plusieurs livres de codes discrets, Qwen3-TTS permet une modélisation vocale de bout en bout avec toutes les informations. Cela permet de contourner complètement les goulots d'étranglement et les erreurs en cascade inhérents aux schémas LM+DiT traditionnels, ce qui améliore considérablement la polyvalence, l'efficacité de génération et les performances maximales du modèle.
  • Génération de streaming à très faible latence : basé sur l'architecture innovante de génération de streaming hybride Dual-Track, un seul modèle prend en charge à la fois la génération en streaming et hors streaming. Qwen3-TTS peut produire le premier paquet audio immédiatement après la saisie d'un seul caractère, avec une latence de synthèse de bout en bout aussi faible que 97 ms, répondant ainsi aux exigences rigoureuses des scénarios interactifs en temps réel.
  • Compréhension intelligente du texte et commande vocale : Qwen3-TTS prend en charge la génération vocale à partir d'instructions en langage naturel, permettant un contrôle flexible des attributs acoustiques multidimensionnels tels que le timbre, l'émotion et la prosodie. Grâce à une intégration approfondie de la compréhension sémantique du texte, le modèle ajuste de manière adaptative le ton, le rythme et l'expression émotionnelle, pour obtenir un résultat réaliste où « ce que vous imaginez est ce que vous entendez ».


Liste des modèles

L'ensemble de la série de modèles multi-codebooks Qwen3-TTS est désormais open source et se décline en deux tailles : 1,7 milliard de paramètres (1,7B) et 600 millions de paramètres (0,6B). Le modèle de 1,7 milliard de paramètres offre des performances de pointe et de puissantes capacités de contrôle, tandis que celui de 0,6 milliard de paramètres offre un équilibre idéal entre performances et efficacité.

  • Le modèle Qwen3-TTS-12Hz-1.7B-VoiceDesign permet la conception vocale à partir des descriptions fournies par l'utilisateur. Il permet également la génération en continu (streaming) et le contrôle par instructions.
  • Le modèle Qwen3-TTS-12Hz-1.7B-CustomVoice permet de contrôler le style des timbres cibles à l'aide d'instructions utilisateur. Il prend en charge 9 timbres haut de gamme couvrant diverses combinaisons de sexe, d'âge, de langue et de dialecte. Il prend en charge la génération en continu et le contrôle par instructions.
  • Le modèle Qwen3-TTS-12Hz-1.7B-Base est un modèle de base capable de cloner rapidement une voix en 3 secondes à partir d'une entrée audio utilisateur ; il peut être utilisé pour affiner (FT) d'autres modèles. Il prend en charge la génération en continu.
  • Le modèle Qwen3-TTS-12Hz-0.6B-CustomVoice prend en charge 9 timbres haut de gamme couvrant diverses combinaisons de sexe, d'âge, de langue et de dialecte. Il prend en charge la génération en continu.
  • Le modèle Qwen3-TTS-12Hz-0.6B-Base est un modèle de base capable de cloner rapidement une voix en 3 secondes à partir d'une entrée audio utilisateur ; il peut être utilisé pour affiner (FT) d'autres modèles. Il prend en charge la génération en continu.


Performances du modèle

Alibaba a procédé à une évaluation complète de Qwen3-TTS sur différents aspects tels que le clonage vocal, la conception vocale et le contrôle. Les résultats démontrent qu'il a atteint des performances SOTA (State of the Art) sur plusieurs indicateurs. Plus précisément :

  • Dans les tâches de conception vocale : Qwen3-TTS-VoiceDesign a surpassé le modèle propriétaire MiniMax-Voice-Design tant en termes de capacité à suivre les instructions que d'expressivité générative sur le benchmark InstructTTS-Eval, tout en devançant largement les autres modèles open source.
  • Dans les tâches de commande vocale : Qwen3-TTS-Instruct fait preuve d'une généralisation multilingue à locuteur unique avec un taux d'erreur moyen sur les mots (WER) de 2,34 %. Il offre également la possibilité de conserver le timbre tout en assurant un contrôle précis du style, obtenant un score de 75,4 % sur InstructTTS-Eval. De plus, il fait preuve de capacités exceptionnelles en matière de génération de discours longs, avec un WER de 2,36 % (chinois) et 2,81 % (anglais) lors d'une synthèse continue de 10 minutes.
  • Dans les tâches de clonage vocal : Qwen3-TTS-VoiceClone a surpassé MiniMax et SeedTTS en termes de stabilité vocale pour le clonage en chinois et en anglais sur Seed-tts-eval. Sur l'ensemble de tests multilingues TTS couvrant 10 langues, il a atteint un WER moyen de 1,835 % et une similarité vocale de 0,789, surpassant MiniMax et ElevenLabs. Ses capacités de clonage vocal interlinguistique ont également atteint le niveau SOTA, surpassant CosyVoice3.


Performances du tokeniseur

Alibaba a évalué Qwen-TTS-Tokenizer pour la reconstruction de la parole. Les résultats obtenus sur l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !