La société française Mistral AI a dévoilé Voxtral Transcribe 2, une famille de modèles d'intelligence artificielle (IA) de reconnaissance vocale permettant une transcription rapide et de haute qualité « à la vitesse du son ». Cette gamme comprend Voxtral Mini Transcribe V2, destiné à la transcription par lots, et Voxtral Realtime, conçu pour les applications en temps réel. Ce dernier se distingue par une latence configurable aussi faible que 200 ms, ce qui le rend idéal pour les assistants vocaux et le sous-titrage en direct. L'approche open source et les prix compétitifs de Mistral rendent Voxtral Transcribe 2 particulièrement attrayant pour les secteurs sensibles à la confidentialité, tout en offrant des performances robustes pour la transcription multilingue.Mistral AI SAS est une entreprise française spécialisée dans l'IA dont le siège social est situé à Paris, avec des bureaux au Royaume-Uni, ainsi qu'à Palo Alto et à Singapour. Elle a été fondée en 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix. L'entreprise développe de grands modèles de langage (LLM) à poids ouvert, ainsi que des modèles d'IA à la fois open source et propriétaires. Considérée comme l'un des leaders européens de l'IA, la société a été évaluée à plus de 14 milliards de dollars en 2025.
Cette annonce prolonge une initiative amorcée en juillet dernier, lorsque Mistral AI a dévoilé Voxtral, sa première famille de modèles d'IA open source dédiée à la compréhension de la parole. L’éditeur avait alors présenté un modèle de 24 milliards de paramètres destiné aux environnements de production, ainsi qu'une version allégée de 3 milliards de paramètres pour les déploiements locaux. Les modèles Voxtral se distinguent par des capacités avancées, incluant la gestion du multilingue, l’analyse de longs contextes, le résumé natif et l’interaction fonctionnelle à partir de la voix.
Pour poursuivre sur cette lancée, Mistral AI a lancé Voxtral Transcribe 2, une nouvelle famille de modèles de reconnaissance vocale qui transcrit « à la vitesse du son ». Voxtral Transcribe 2 se compose de deux modèles de conversion de la parole en texte offrant une qualité de transcription, une diarisation et une latence ultra-faible. La famille comprend Voxtral Mini Transcribe V2 pour la transcription par lots et Voxtral Realtime pour les applications en temps réel.
Selon Mistral, Voxtral Realtime utilise « une architecture de streaming innovante qui transcrit l'audio à mesure qu'il arrive », plutôt que d'adapter des modèles hors ligne. Cela permet une latence « configurable à moins de 200 ms », un seuil essentiel pour les assistants vocaux, le sous-titrage en direct et l'IA conversationnelle.
Les utilisateurs peuvent tester Voxtral Transcribe 2 directement dans Mistral Studio. Ils peuvent télécharger jusqu'à 10 fichiers audio, activer ou désactiver la diarisation, choisir la granularité des horodatages et ajouter des termes contextuels pour le vocabulaire spécifique à un domaine. La famille de modèles prend en charge les formats .mp3, .wav, .m4a, .flac, .ogg jusqu'à 1 Go chacun.
Stratégie produit
La société a révélé que Voxtral Realtime est commercialisé en open source sous licence Apache 2.0, ce qui permet aux organisations de le déployer sur leur propre infrastructure, y compris sur des appareils périphériques. Cela a des implications importantes pour les secteurs sensibles à la confidentialité, tels que la santé, la finance et le gouvernement, où l'envoi de données audio vers des clouds tiers est souvent restreint.
Cette importance accordée à l'open source et à l'intégration n'est pas fortuite. Alors que les entreprises s'inquiètent de plus en plus de la dépendance vis-à-vis des fournisseurs et de la souveraineté des données, Mistral se positionne comme une alternative aux plateformes d'IA fermées basées aux États-Unis.
La tarification est abordée avec franchise. Elle est basée sur l'usage et commence à environ 5 000 € par mois. Cela indique que Mistral cible les moyennes et grandes entreprises plutôt que les développeurs individuels, tout en continuant à présenter ses services comme compétitifs en termes de coût.
Transformer les applications vocales
Selon Mistral, la famille de modèles Voxtral optimise les flux de travail vocaux dans diverses applications et industries.
- Intelligence de réunion : les utilisateurs peuvent transcrivez des enregistrements multilingues grâce à la diarisation des locuteurs, qui attribue clairement qui a dit quoi et quand. Le prix proposé par Voxtral permet d'annoter de grands volumes de contenu de réunion avec une rentabilité inégalée dans le secteur.
- Agents vocaux et assistants virtuels : les développeurs peuvent créer une IA conversationnelle avec une latence de transcription inférieure à 200 ms. Il leur suffira de connecter Voxtral Realtime à leur pipeline LLM et TTS pour obtenir des interfaces vocales réactives et naturelles.
- Automatisation des centres d'appels : les entreprises peuvent transcrire les appels en temps réel, permettant ainsi aux systèmes d'IA d'analyser les sentiments, de suggérer des réponses et de remplir les champs CRM pendant que les conversations sont encore en cours. La diarisation des locuteurs garantit une attribution claire entre les agents et les clients.
- Médias et diffusion : Les sociétés de médias et de diffusion peuvent générer des sous-titres multilingues en direct avec une latence minimale. Le biais contextuel traite les noms propres et la terminologie technique qui posent problème aux services de transcription génériques.
- Conformité et documentation : Voxtral Transcribe 2 permet de surveiller et de transcrir les interactions à des fins de conformité réglementaire, grâce à la journalisation qui fournit une attribution claire des locuteurs et des horodatages permettant des pistes d'audit précises.
Performances
Voxtral Realtime
Mistral affirme que Voxtral Realtime est spécialement conçu pour les applications où la latence est importante. Contrairement aux approches qui adaptent les modèles hors ligne en traitant l'audio par blocs, Realtime utilise une « architecture de streaming innovante qui transcrit l'audio au fur et à mesure qu'il arrive. » Le modèle fournit des transcriptions avec un délai configurable inférieur à 200 ms, ouvrant la voie à une nouvelle catégorie d'applications axées sur la voix.
Avec un délai de 2,4 secondes, idéal pour le sous-titrage, Voxtral Realtime est comparable à Voxtral Mini Transcribe V2. Avec un délai de 480 ms, il reste dans une fourchette d'erreur de 1 à 2 %, ce qui permet aux agents vocaux d'atteindre une précision quasi hors ligne.
Le modèle est multilingue de manière native et offre d'excellentes performances de transcription dans 13 langues, dont l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais. Avec une empreinte de 4 Go de paramètres, il fonctionne efficacement sur les appareils périphériques, garantissant la confidentialité et la sécurité des déploiements sensibles.
Voxtral Realtime est disponible via API au prix de 0,006 $ par minute et en poids ouverts sur Hugging Face.
Voxtral Mini Transcribe V2
Mistral affirme que Voxtral Mini Transcribe V2 atteint un taux d'erreur d'environ 4 % sur FLEURS au coût de 0,003 $/min, ce qu'il décrit comme « le meilleur rapport qualité-prix de toutes les API de transcription ».
La société affirme que ce modèle surpasse les offres de GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova en termes de précision, tout en traitant l'audio « environ trois fois plus rapidement que Scribe v2 d'ElevenLabs » pour « un cinquième du coût ».
Si elles sont validées de manière indépendante, ces affirmations pourraient bouleverser un marché où les prix de la transcription vocale restent relativement élevés, en particulier pour la transcription multilingue et diarisée. La baisse des coûts rend économiquement viable la transcription de grands volumes de réunions, d'appels et d'archives médiatiques qui étaient auparavant trop coûteux à traiter.
Voxtral Mini Transcribe V2 est disponible via API au prix de 0,003 $ par minute. Il peut être testé dans le nouvel espace audio de Mistral Studio ou dans Le Chat.
Des idées novatrices
Au-delà de la simple transcription, Voxtral Mini Transcribe V2 introduit des fonctionnalités spécialement conçues pour une utilisation en entreprise. Celles-ci comprennent la diarisation des locuteurs avec des horodatages précis, le biais...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.