La start-up française Mistral AI a lancé Voxtral TTS, un modèle de synthèse vocale multilingue prenant en charge neuf langues, dont l'anglais et le français. Ce système d'intelligence artificielle (IA) de 4 milliards de paramètres allie efficacité avec une modélisation contextuelle et vocale avancée, permettant ainsi une intonation et une expression émotionnelle réalistes. Selon l'entreprise, Voxtral TTS surpasse ElevenLabs en termes de rendu naturel, tout en offrant une faible latence et un clonage vocal rapide à partir d'échantillons d'une durée minimale de trois secondes.Mistral AI SAS est une entreprise française spécialisée dans l'IA dont le siège social est situé à Paris, avec des bureaux au Royaume-Uni, ainsi qu'à Palo Alto et à Singapour. Elle a été fondée en 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix. L'entreprise développe de grands modèles de langage (LLM) à poids ouvert, ainsi que des modèles d'IA à la fois open source et propriétaires. Considérée comme l'un des leaders européens de l'IA, la société a été évaluée à plus de 14 milliards de dollars en 2025.
Mistral AI a récemment annoncé le lancement de Voxtral TTS, un modèle de synthèse vocale conçu pour la génération vocale multilingue avancée. « Nous lançons aujourd’hui Voxtral TTS, notre premier modèle de synthèse vocale offrant des performances de pointe en matière de génération vocale multilingue. Avec ses 4 milliards de paramètres, ce modèle est léger, ce qui rend les agents équipés de Voxtral naturels, fiables et rentables à grande échelle », a indiqué l'entreprise dans un communiqué.
Points forts du modèle Voxtral TTS
Selon Mistral AI, la génération d'une voix naturelle repose sur la capacité du modèle à réciter, mais aussi à interpréter un texte avec précision. La compréhension contextuelle – qu'il s'agisse d'un ton neutre, joyeux, sarcastique, etc. – détermine si l'auditeur perçoit la génération comme naturelle ou robotique.
« Notre modèle excelle tant dans la compréhension contextuelle que dans la modélisation de la voix : il capture la façon dont une personne spécifique s'exprime naturellement. Notre adaptation vocale va au-delà de la lecture traditionnelle de textes en capturant la personnalité de l'orateur, y compris ses pauses naturelles, son rythme, son intonation et sa palette émotionnelle. Grâce à sa taille compacte, son faible coût, sa faible latence et sa grande adaptabilité, Voxtral TTS offre un contrôle total et une personnalisation complète aux entreprises qui souhaitent disposer de leur propre pile d'IA vocale », a déclaré Mistral AI.
Le modèle Voxtral TTS de Mistral AI offre :
- Une synthèse vocale réaliste et expressive sur le plan émotionnel. Les résultats sont disponibles dans 9 langues courantes (anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe), ainsi que dans divers dialectes, afin d'assurer une large couverture internationale.
- Une latence très faible pour le délai de sortie du premier son.
- Une adaptation facile à de nouvelles voix.
- Disponible à l'essai dans Mistral Studio.
- Une synthèse vocale de niveau professionnel, au service des workflows critiques des agents vocaux.
Synthèse vocale en langue maternelle
Entraîné sur un vaste ensemble de données vocales, Voxtral TTS est conçu pour une utilisation à l'échelle mondiale. Il offre des performances de pointe dans 9 langues : anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe.
Le modèle a été entraîné pour s'adapter à une voix personnalisée à partir d'un échantillon de référence d'à peine 3 secondes, et pour reproduire non seulement la voix, mais aussi les nuances telles que les accents subtils, les inflexions, les intonations et même les hésitations.
Mistral propose plusieurs options vocales prédéfinies dans l'API, mais il est facile de les étendre à la bibliothèque vocale interne de l'utilisateur en les personnalisant en fonction du cas d'utilisation, de les localiser selon la langue et l'accent, de les garder neutres ou plus expressives, décontractées ou formelles, plus naturelles et conversationnelles ou robotiques.
Le modèle fait également preuve d'une capacité d'adaptation vocale interlinguistique « zero-shot », bien qu'il n'ait pas été explicitement entraîné à cette fin. Par exemple, le modèle peut générer un discours en anglais à partir d'une instruction vocale en...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.