Alibaba rend open source la suite de modèles d'IA Qwen3-TTS, offrant une génération multilingue de la parole à très faible latence, ainsi qu'une prise en charge complète du clonage et de la conception vocale

Le 24 janvier 2026 à 14:17, par Anthony

85PARTAGES

Alibaba rend open source la suite de modèles d'IA Qwen3-TTS, offrant une génération multilingue de la parole à très faible latence, ainsi qu'une prise en charge complète du clonage et de la conception vocale

Le géant chinois Alibaba a ouvert le code source de sa suite de modèles Qwen3-TTS, une famille de modèles d'intelligence artificielle (IA) de synthèse de la parole capable de générer des voix fluides et expressives dans plusieurs langues en temps quasi réel. Déclinée en deux versions de 1,7 milliard et 0,6 milliard de paramètres, cette technologie prend en charge jusqu'à dix langues majeures, dont le français, et permet le clonage de voix, la conception vocale ainsi que le contrôle vocal à l'aide d'instructions en langage naturel fournies par l'utilisateur. Grâce à une architecture légère et à un encodage acoustique propriétaire, Qwen3-TTS promet une génération vocale à très faible latence, désormais accessible aux développeurs via GitHub et l’API Qwen.

Alibaba Cloud, également connu sous le nom d'Aliyun, est une société de cloud computing, filiale du groupe Alibaba, dont le siège social est situé à Singapour. Elle fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Elle développe également la famille de grands modèles de langage Qwen, parmi lesquels de nombreuses variantes sont distribuées en tant que modèles open source sous licence Apache 2.0, tandis que d'autres sont proposées via Alibaba Cloud.

Qwen3-TTS est une série de puissantes fonctionnalités de génération vocale développées par Qwen, offrant une prise en charge complète pour le clonage vocal, la conception vocale, la génération vocale à haute qualité semblable à celle d'un humain et le contrôle vocal basé sur le langage naturel. Elle fournit aux développeurs et aux utilisateurs un ensemble complet de fonctionnalités de génération vocale disponible.

Grâce à l'encodeur vocal Qwen3-TTS-Tokenizer-12Hz à multi-codebook, Qwen3-TTS permet une compression efficace et une représentation robuste des signaux vocaux. Cela permet non seulement de préserver entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, mais aussi de reconstruire la parole à grande vitesse et avec une grande fidélité grâce à une architecture légère non DiT. Qwen3-TTS atteint par ailleurs des vitesses de génération de streaming bidirectionnel élevées, le premier paquet audio étant livré après le traitement d'un seul caractère, grâce à la modélisation Dual-Track.

Les modèles prennent en charge 10 langues courantes (chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol et italien) ainsi que divers dialectes afin de répondre aux exigences des applications internationales. De plus, les modèles font preuve d'une solide compréhension contextuelle, ce qui leur permet d'adapter le ton, le rythme et l'expression émotionnelle en fonction des instructions et de la sémantique du texte, tout en améliorant considérablement la robustesse face au bruit du texte saisi. La suite de modèles Qwen3-TTS est désormais disponible en open source sur GitHub et accessible via l'API Qwen.

Principales fonctionnalités de Qwen3-TTS

Représentation vocale puissante : grâce au Qwen3-TTS-Tokenizer-12Hz développé en interne, Qwen3-TTS permet une compression acoustique efficace et une modélisation sémantique haute dimension des signaux vocaux. Il préserve entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, permettant une reconstruction vocale rapide et haute fidélité grâce à une architecture légère non DiT.
Architecture universelle de bout en bout : grâce à une architecture LM à plusieurs livres de codes discrets, Qwen3-TTS permet une modélisation vocale de bout en bout avec toutes les informations. Cela permet de contourner complètement les goulots d'étranglement et les erreurs en cascade inhérents aux schémas LM+DiT traditionnels, ce qui améliore considérablement la polyvalence, l'efficacité de génération et les performances maximales du modèle.
Génération de streaming à très faible latence : basé sur l'architecture innovante de génération de streaming hybride Dual-Track, un seul modèle prend en charge à la fois la génération en streaming et hors streaming. Qwen3-TTS peut produire le premier paquet audio immédiatement après la saisie d'un seul caractère, avec une latence de synthèse de bout en bout aussi faible que 97 ms, répondant ainsi aux exigences rigoureuses des scénarios interactifs en temps réel.
Compréhension intelligente du texte et commande vocale : Qwen3-TTS prend en charge la génération vocale à partir d'instructions en langage naturel, permettant un contrôle flexible des attributs acoustiques multidimensionnels tels que le timbre, l'émotion et la prosodie. Grâce à une intégration approfondie de la compréhension sémantique du texte, le modèle ajuste de manière adaptative le ton, le rythme et l'expression émotionnelle, pour obtenir un résultat réaliste où « ce que vous imaginez est ce que vous entendez ».

Liste des modèles

L'ensemble de la série de modèles multi-codebooks Qwen3-TTS est désormais open source et se décline en deux tailles : 1,7 milliard de paramètres (1,7B) et 600 millions de paramètres (0,6B). Le modèle de 1,7 milliard de paramètres offre des performances de pointe et de puissantes capacités de contrôle, tandis que celui de 0,6 milliard de paramètres offre un équilibre idéal entre performances et efficacité.

Le modèle Qwen3-TTS-12Hz-1.7B-VoiceDesign permet la conception vocale à partir des descriptions fournies par l'utilisateur. Il permet également la génération en continu (streaming) et le contrôle par instructions.
Le modèle Qwen3-TTS-12Hz-1.7B-CustomVoice permet de contrôler le style des timbres cibles à l'aide d'instructions utilisateur. Il prend en charge 9 timbres haut de gamme couvrant diverses combinaisons de sexe, d'âge, de langue et de dialecte. Il prend en charge la génération en continu et le contrôle par instructions.
Le modèle Qwen3-TTS-12Hz-1.7B-Base est un modèle de base capable de cloner rapidement une voix en 3 secondes à partir d'une entrée audio utilisateur ; il peut être utilisé pour affiner (FT) d'autres modèles. Il prend en charge la génération en continu.
Le modèle Qwen3-TTS-12Hz-0.6B-CustomVoice prend en charge 9 timbres haut de gamme couvrant diverses combinaisons de sexe, d'âge, de langue et de dialecte. Il prend en charge la génération en continu.
Le modèle Qwen3-TTS-12Hz-0.6B-Base est un modèle de base capable de cloner rapidement une voix en 3 secondes à partir d'une entrée audio utilisateur ; il peut être utilisé pour affiner (FT) d'autres modèles. Il prend en charge la génération en continu.

Performances du modèle

Alibaba a procédé à une évaluation complète de Qwen3-TTS sur différents aspects tels que le clonage vocal, la conception vocale et le contrôle. Les résultats démontrent qu'il a atteint des performances SOTA (State of the Art) sur plusieurs indicateurs. Plus précisément :

Dans les tâches de conception vocale : Qwen3-TTS-VoiceDesign a surpassé le modèle propriétaire MiniMax-Voice-Design tant en termes de capacité à suivre les instructions que d'expressivité générative sur le benchmark InstructTTS-Eval, tout en devançant largement les autres modèles open source.
Dans les tâches de commande vocale : Qwen3-TTS-Instruct fait preuve d'une généralisation multilingue à locuteur unique avec un taux d'erreur moyen sur les mots (WER) de 2,34 %. Il offre également la possibilité de conserver le timbre tout en assurant un contrôle précis du style, obtenant un score de 75,4 % sur InstructTTS-Eval. De plus, il fait preuve de capacités exceptionnelles en matière de génération de discours longs, avec un WER de 2,36 % (chinois) et 2,81 % (anglais) lors d'une synthèse continue de 10 minutes.
Dans les tâches de clonage vocal : Qwen3-TTS-VoiceClone a surpassé MiniMax et SeedTTS en termes de stabilité vocale pour le clonage en chinois et en anglais sur Seed-tts-eval. Sur l'ensemble de tests multilingues TTS couvrant 10 langues, il a atteint un WER moyen de 1,835 % et une similarité vocale de 0,789, surpassant MiniMax et ElevenLabs. Ses capacités de clonage vocal interlinguistique ont également atteint le niveau SOTA, surpassant CosyVoice3.

Performances du tokeniseur

Alibaba a évalué Qwen-TTS-Tokenizer pour la reconstruction de la parole. Les résultats obtenus sur l'ensemble de test LibriSpeech démontrent qu'il atteint des performances SOTA pour tous les indicateurs clés.

Plus précisément, dans l'évaluation perceptuelle de la qualité vocale (PESQ), Qwen-TTS-Tokenizer a obtenu des scores de 3,21 et 3,68 respectivement en bande large et en bande étroite, devançant largement les tokeniseurs similaires. Dans les tests STOI (Short-Time Objective Intelligibility) et UTMOS, Qwen-TTS-Tokenizer a obtenu des scores de 0,96 et 4,16, démontrant ainsi une qualité de reconstruction supérieure. En termes de similarité des locuteurs, Qwen-TTS-Tokenizer a obtenu un score de 0,95, surpassant largement les modèles de comparaison, ce qui indique sa capacité à préserver les informations sur les locuteurs avec une perte quasi nulle.

L'initiative d'Alibaba visant à rendre Qwen3-TTS open source s'inscrit dans une tendance de fond qui redéfinit l'utilisation de l'IA. Selon le rapport « State of AI » d'OpenRouter, l'adoption mondiale des modèles d'IA open source chinois a presque triplé en 2025, atteignant près de 30 % de l'utilisation totale en décembre de cette même année, contre 13 % au début de l'année. Cette progression, portée par Qwen et DeepSeek, marque un basculement de la domination propriétaire vers une concurrence open source pluraliste.

Source : Qwen (Alibaba)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Alibaba crédible ou pertinente ?

Voir aussi :

Alibaba présente Qwen Image Edit, un outil permettant d'effectuer des retouches d'images grâce à l'IA en quelques secondes. Cela va-t-il révolutionner à jamais le domaine de la retouche assistée par l'IA ?

Le groupe Alibaba mise à fond sur l'IA en annonçant son intention d'investir au moins 53 milliards de dollars au cours des trois prochaines années pour stimuler son infrastructure de cloud computing et d'IA

Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent

Alibaba Cloud annonce Qwen3-Omni-Flash-2025-12-01, un grand modèle multimodal natif de nouvelle génération, capable de traiter le texte, les images, l'audio et la vidéo

Vous avez lu gratuitement 15 906 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Alibaba rend open source la suite de modèles d'IA Qwen3-TTS, offrant une génération multilingue de la parole à très faible latence, ainsi qu'une prise en charge complète du clonage et de la conception vocale

Identifiant
Mot de passe

Mot de passe oublié ?