La start-up française Mistral AI annonce le lancement de Voxtral TTS, un modèle d'IA de synthèse vocale conçu pour la génération vocale multilingue avancée dans 9 langues, dont l'anglais et le français

Le 30 mars 2026 à 09:14, par Anthony

71PARTAGES

La start-up française Mistral AI annonce le lancement de Voxtral TTS, un modèle d'IA de synthèse vocale conçu pour la génération vocale multilingue avancée dans 9 langues, dont l'anglais et le français

La start-up française Mistral AI a lancé Voxtral TTS, un modèle de synthèse vocale multilingue prenant en charge neuf langues, dont l'anglais et le français. Ce système d'intelligence artificielle (IA) de 4 milliards de paramètres allie efficacité avec une modélisation contextuelle et vocale avancée, permettant ainsi une intonation et une expression émotionnelle réalistes. Selon l'entreprise, Voxtral TTS surpasse ElevenLabs en termes de rendu naturel, tout en offrant une faible latence et un clonage vocal rapide à partir d'échantillons d'une durée minimale de trois secondes.

Mistral AI SAS est une entreprise française spécialisée dans l'IA dont le siège social est situé à Paris, avec des bureaux au Royaume-Uni, ainsi qu'à Palo Alto et à Singapour. Elle a été fondée en 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix. L'entreprise développe de grands modèles de langage (LLM) à poids ouvert, ainsi que des modèles d'IA à la fois open source et propriétaires. Considérée comme l'un des leaders européens de l'IA, la société a été évaluée à plus de 14 milliards de dollars en 2025.

Mistral AI a récemment annoncé le lancement de Voxtral TTS, un modèle de synthèse vocale conçu pour la génération vocale multilingue avancée. « Nous lançons aujourd’hui Voxtral TTS, notre premier modèle de synthèse vocale offrant des performances de pointe en matière de génération vocale multilingue. Avec ses 4 milliards de paramètres, ce modèle est léger, ce qui rend les agents équipés de Voxtral naturels, fiables et rentables à grande échelle », a indiqué l'entreprise dans un communiqué.

Points forts du modèle Voxtral TTS

Selon Mistral AI, la génération d'une voix naturelle repose sur la capacité du modèle à réciter, mais aussi à interpréter un texte avec précision. La compréhension contextuelle – qu'il s'agisse d'un ton neutre, joyeux, sarcastique, etc. – détermine si l'auditeur perçoit la génération comme naturelle ou robotique.

« Notre modèle excelle tant dans la compréhension contextuelle que dans la modélisation de la voix : il capture la façon dont une personne spécifique s'exprime naturellement. Notre adaptation vocale va au-delà de la lecture traditionnelle de textes en capturant la personnalité de l'orateur, y compris ses pauses naturelles, son rythme, son intonation et sa palette émotionnelle. Grâce à sa taille compacte, son faible coût, sa faible latence et sa grande adaptabilité, Voxtral TTS offre un contrôle total et une personnalisation complète aux entreprises qui souhaitent disposer de leur propre pile d'IA vocale », a déclaré Mistral AI.

Le modèle Voxtral TTS de Mistral AI offre :

Une synthèse vocale réaliste et expressive sur le plan émotionnel. Les résultats sont disponibles dans 9 langues courantes (anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe), ainsi que dans divers dialectes, afin d'assurer une large couverture internationale.
Une latence très faible pour le délai de sortie du premier son.
Une adaptation facile à de nouvelles voix.
Disponible à l'essai dans Mistral Studio.
Une synthèse vocale de niveau professionnel, au service des workflows critiques des agents vocaux.

Synthèse vocale en langue maternelle

Entraîné sur un vaste ensemble de données vocales, Voxtral TTS est conçu pour une utilisation à l'échelle mondiale. Il offre des performances de pointe dans 9 langues : anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe.

Le modèle a été entraîné pour s'adapter à une voix personnalisée à partir d'un échantillon de référence d'à peine 3 secondes, et pour reproduire non seulement la voix, mais aussi les nuances telles que les accents subtils, les inflexions, les intonations et même les hésitations.

Mistral propose plusieurs options vocales prédéfinies dans l'API, mais il est facile de les étendre à la bibliothèque vocale interne de l'utilisateur en les personnalisant en fonction du cas d'utilisation, de les localiser selon la langue et l'accent, de les garder neutres ou plus expressives, décontractées ou formelles, plus naturelles et conversationnelles ou robotiques.

Le modèle fait également preuve d'une capacité d'adaptation vocale interlinguistique « zero-shot », bien qu'il n'ait pas été explicitement entraîné à cette fin. Par exemple, le modèle peut générer un discours en anglais à partir d'une instruction vocale en français et d'un texte en anglais. Le discours obtenu sonne naturel tout en reprenant l'accent de l'instruction vocale fournie. Cela rend le modèle utile pour la mise en place de systèmes de traduction de la parole vers la parole en cascade.

Architecture de Voxtral TTS

Contrairement à de nombreux systèmes de synthèse vocale, Voxtral TTS est un modèle léger comptant 4 milliards de paramètres. Cette conception facilite un déploiement efficace à grande échelle tout en garantissant une sortie vocale naturelle et fiable. Fort de cette efficacité, le modèle fait preuve d'une compréhension contextuelle avancée et d'une modélisation avancée de la voix, reproduisant les traits de personnalité du locuteur tels que les pauses naturelles, le rythme, l'intonation et les nuances émotionnelles.

Ce modèle est un modèle autorégressif de correspondance de flux basé sur un transformateur, construit à partir de Ministral 3B. Il se compose des éléments suivants :

une structure de base de décodeur à transformateur avec 3,4 milliards de paramètres
un transformateur acoustique de correspondance de flux de 390 millions de paramètres
un codec audio neuronal de 300 millions de paramètres (encodeur-décodeur symétrique)

Le modèle prend en charge une entrée vocale (de 5 à 25 secondes) et une entrée textuelle dans 9 langues. Pour chaque trame audio, le transformateur de base prédit un token sémantique, puis le transformateur de correspondance de flux effectue 16 évaluations de fonction (NFE) afin de générer la représentation acoustique latente.

Mistral a développé un codec en interne qui traite le signal audio de manière causale à l'aide d'un modèle latent sémantique VQ (vocabulaire de 8192 éléments) et d'un modèle acoustique FSQ (36 dimensions et 21 niveaux), et le restitue à une fréquence de 12,5 Hz.

Des performances de pointe

Selon Mistral AI, les indicateurs automatisés, tels que le taux d'erreurs par mot et les scores de qualité audio, utilisés pour les systèmes de synthèse vocale multilingues ne permettent pas de mesurer le caractère naturel de la parole. Ce qui rend la parole naturelle relève de nuances extrêmement subtiles et nécessite une compréhension approfondie des différences culturelles et des schémas d'expression typiques. C'est la raison pour laquelle l'entreprise a réalisé des évaluations comparatives avec des locuteurs natifs.

Pour les agents vocaux, la latence et la qualité sont en tension constante. Les évaluations humaines réalisées par Mistral montrent que Voxtral TTS offre un rendu plus naturel que ElevenLabs Flash v2.5, tout en conservant un temps de réponse audio (TTFA) similaire. Voxtral offre également une qualité équivalente à celle d'ElevenLabs v3, et prend en charge avec succès la gestion des émotions pour des interactions plus réalistes.

Mistral a mené une évaluation humaine comparative entre Voxtral TTS et ElevenLabs v2.5 Flash dans un contexte de voix personnalisée sans apprentissage préalable. À l'aide de deux voix reconnaissables dans leurs dialectes natifs pour chacune des 9 langues prises en charge, 3 évaluateurs ont réalisé un test de préférence comparatif, paire par paire, portant sur le naturel, la fidélité à l'accent et la similitude acoustique par rapport à la référence originale. Voxtral TTS creuse l'écart de qualité par rapport à v2.5 Flash dans ce contexte vocal personnalisé multilingue sans apprentissage préalable, soulignant la personnalisation instantanée de Voxtral TTS pour n'importe quelle voix.

Voxtral TTS atteint par ailleurs une latence de modèle de 70 ms pour un échantillon vocal type de 10 secondes et 500 caractères, avec un facteur temps réel (RTF) d'environ 9,7. Le modèle génère nativement jusqu'à deux minutes d'audio, et l'API Mistral gère des générations d'une durée illimitée grâce à un entrelacement intelligent.

Alimenter les flux de travail vocaux d'entreprise

Voxtral TTS ferme la boucle de l'intelligence audio, en dotant les pipelines vocaux d'entreprise d'une couche de sortie qui passe le test de l'humain. Il fonctionne en tandem avec Voxtral Transcribe pour offrir une solution complète de la parole à la parole, ou s'intègre à n'importe quelle pile existante de conversion parole-texte et de grand modèle de langage (LLM), avec une prise en charge multilingue.

Commencer avec Voxtral TTS

Les utilisateurs peuvent tester Voxtral TTS directement dans l'environnement de test de Mistral Studio en choisissant l'une des voix Mistral disponibles ou enregistrer directement la leur.

Les utilisateurs peuvent également utiliser Voxtral TTS dans Le Chat, l'intégrer via une API au tarif de 0,016 dollars pour 1 000 caractères, ou accéder aux poids des modèles ouverts sur Hugging Face sous licence Creative Commons BY-NC 4.0.

Source : Mistral Voxtral TTS

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des fonctionnalités proposées par le modèle Voxtral TTS de Mistral AI ? Les trouvez-vous utiles et intéressantes ?

Avez-vous déjà utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui, qu'en pensez-vous ?

Voir aussi :

La société française Mistral AI lance Voxtral Transcribe 2, une nouvelle famille de modèles d'IA de reconnaissance vocale, qui transcrit « à la vitesse du son »

Mistral présente Voxtral, sa première famille de modèles d'IA de compréhension de la parole en open source, publiée sous la licence Apache 2.0

La start-up française d'IA Mistral lance ses nouveaux modèles d'IA open source Mistral 3, dotés de performances de pointe, afin de rester dans la course face à OpenAI et Google

Vous avez lu gratuitement 42 458 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La start-up française Mistral AI annonce le lancement de Voxtral TTS, un modèle d'IA de synthèse vocale conçu pour la génération vocale multilingue avancée dans 9 langues, dont l'anglais et le français

Identifiant
Mot de passe

Mot de passe oublié ?