IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Alibaba rend open source la suite de modèles d'IA Qwen3-TTS, offrant une génération multilingue de la parole à très faible latence, ainsi qu'une prise en charge complète du clonage et de la conception vocale

Le , par Anthony

85PARTAGES

7  0 
Le géant chinois Alibaba a ouvert le code source de sa suite de modèles Qwen3-TTS, une famille de modèles d'intelligence artificielle (IA) de synthèse de la parole capable de générer des voix fluides et expressives dans plusieurs langues en temps quasi réel. Déclinée en deux versions de 1,7 milliard et 0,6 milliard de paramètres, cette technologie prend en charge jusqu'à dix langues majeures, dont le français, et permet le clonage de voix, la conception vocale ainsi que le contrôle vocal à l'aide d'instructions en langage naturel fournies par l'utilisateur. Grâce à une architecture légère et à un encodage acoustique propriétaire, Qwen3-TTS promet une génération vocale à très faible latence, désormais accessible aux développeurs via GitHub et l’API Qwen.

Alibaba Cloud, également connu sous le nom d'Aliyun, est une société de cloud computing, filiale du groupe Alibaba, dont le siège social est situé à Singapour. Elle fournit des services de cloud computing aux entreprises en ligne et à l'écosystème de commerce électronique d'Alibaba. Elle développe également la famille de grands modèles de langage Qwen, parmi lesquels de nombreuses variantes sont distribuées en tant que modèles open source sous licence Apache 2.0, tandis que d'autres sont proposées via Alibaba Cloud.

Qwen3-TTS est une série de puissantes fonctionnalités de génération vocale développées par Qwen, offrant une prise en charge complète pour le clonage vocal, la conception vocale, la génération vocale à haute qualité semblable à celle d'un humain et le contrôle vocal basé sur le langage naturel. Elle fournit aux développeurs et aux utilisateurs un ensemble complet de fonctionnalités de génération vocale disponible.


Grâce à l'encodeur vocal Qwen3-TTS-Tokenizer-12Hz à multi-codebook, Qwen3-TTS permet une compression efficace et une représentation robuste des signaux vocaux. Cela permet non seulement de préserver entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, mais aussi de reconstruire la parole à grande vitesse et avec une grande fidélité grâce à une architecture légère non DiT. Qwen3-TTS atteint par ailleurs des vitesses de génération de streaming bidirectionnel élevées, le premier paquet audio étant livré après le traitement d'un seul caractère, grâce à la modélisation Dual-Track.

Les modèles prennent en charge 10 langues courantes (chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol et italien) ainsi que divers dialectes afin de répondre aux exigences des applications internationales. De plus, les modèles font preuve d'une solide compréhension contextuelle, ce qui leur permet d'adapter le ton, le rythme et l'expression émotionnelle en fonction des instructions et de la sémantique du texte, tout en améliorant considérablement la robustesse face au bruit du texte saisi. La suite de modèles Qwen3-TTS est désormais disponible en open source sur GitHub et accessible via l'API Qwen.

Principales fonctionnalités de Qwen3-TTS

  • Représentation vocale puissante : grâce au Qwen3-TTS-Tokenizer-12Hz développé en interne, Qwen3-TTS permet une compression acoustique efficace et une modélisation sémantique haute dimension des signaux vocaux. Il préserve entièrement les informations paralinguistiques et les caractéristiques acoustiques de l'environnement, permettant une reconstruction vocale rapide et haute fidélité grâce à une architecture légère non DiT.
  • Architecture universelle de bout en bout : grâce à une architecture LM à plusieurs livres de codes discrets, Qwen3-TTS permet une modélisation vocale de bout en bout avec toutes les informations. Cela permet de contourner complètement les goulots d'étranglement et les erreurs en cascade inhérents aux schémas LM+DiT traditionnels, ce qui améliore considérablement la polyvalence, l'efficacité de génération et les performances maximales du modèle.
  • Génération de streaming à très faible latence : basé sur l'architecture innovante de génération de streaming hybride Dual-Track, un seul modèle prend en charge à la fois la génération en streaming et hors streaming. Qwen3-TTS peut produire le premier paquet audio immédiatement après la saisie d'un seul caractère, avec une latence de synthèse de bout en bout aussi faible que 97 ms, répondant ainsi aux exigences rigoureuses des scénarios interactifs en temps réel.
  • Compréhension intelligente du texte et commande vocale : Qwen3-TTS prend en charge la génération vocale à partir d'instructions en langage naturel, permettant un contrôle flexible des attributs acoustiques multidimensionnels tels que le timbre, l'émotion et la prosodie. Grâce à une intégration approfondie de la compréhension sémantique du texte, le modèle ajuste de manière adaptative le ton, le rythme et l'expression émotionnelle, pour obtenir un résultat réaliste où...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !