IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Mistral présente Voxtral, sa première famille de modèles d'IA de compréhension de la parole en open source, publiée sous la licence Apache 2.0

Le , par Alex

0PARTAGES

8  0 
Mistral présente Voxtral, sa première famille de modèles d'IA de compréhension de la parole en open source, publiée sous la licence Apache 2.0

Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles. Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale.

Mistral AI est une entreprise française qui vend des produits d'intelligence artificielle (IA). Elle a été fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind. La société a levé 640 millions de dollars en juin 2024. L'investissement, composé de 503 millions de dollars de capitaux propres et de 142 millions de dollars de dettes, a propulsé la valorisation de l'entreprise à un niveau impressionnant de 6 milliards de dollars. Ce tour de table, mené par General Catalyst, avec des contributions de plusieurs investisseurs nouveaux et existants, représente un vote de confiance majeur dans la poursuite par Mistral d'une technologie d'IA de pointe.

Récemment, Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles.

Outre leurs options de déploiement flexibles, les deux modèles Voxtral sont publiés sous la licence Apache 2.0 et sont disponibles via l'API de Mistral. En s'appuyant sur cette accessibilité, Mistral propose un point d'accès à la transcription hautement optimisé pour une meilleure rentabilité, et les modèles peuvent être téléchargés à partir de Hugging Face pour une utilisation indépendante.

Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale. Ces capacités étendues prennent en charge les interactions avec le monde réel et les actions en aval, y compris la génération de résumés, la réponse aux questions, la réalisation d'analyses et l'extraction d'informations.

Pour les organisations soucieuses de leur budget, le modèle Voxtral Mini Transcribe surpasse OpenAI Whisper pour un coût inférieur de moitié. Quant à Voxtral Small, il offre des performances comparables à celles d'ElevenLabs Scribe, également pour moins de la moitié du prix. Voxtral peut également être testé via le mode vocal de Mistral Le Chat sur les plateformes web et mobiles.


Extrait de l'annonce de Mistral AI :

La voix a été la première interface de l'humanité - bien avant l'écriture ou la dactylographie, elle nous a permis de partager des idées, de coordonner le travail et de nouer des relations. À mesure que les systèmes numériques deviennent plus performants, la voix redevient la forme la plus naturelle d'interaction entre l'homme et l'ordinateur.

Pourtant, les systèmes actuels restent limités, peu fiables, propriétaires et trop fragiles pour être utilisés dans le monde réel. Pour combler ce fossé, il faut des outils dotés d'une transcription exceptionnelle, d'une compréhension approfondie, d'une maîtrise du multilinguisme et d'un déploiement ouvert et flexible.

Nous lançons les modèles Voxtral pour accélérer cet avenir. Ces modèles de compréhension de la parole à la pointe de la technologie sont disponibles en deux tailles : une variante 24B pour les applications à l'échelle de la production et une variante 3B pour les déploiements locaux et périphériques. Les deux versions sont publiées sous la licence Apache 2.0 et sont également disponibles sur notre API. L'API achemine les requêtes de transcription vers une version de Voxtral Mini optimisée pour la transcription (Voxtral Mini Transcribe) qui offre une efficacité inégalée en termes de coûts et de latence.
Présentation de Voxtral

Jusqu'à récemment, pour obtenir une intelligence vocale réellement utilisable en production, il fallait choisir entre deux compromis :

  1. Des systèmes ASR open-source avec des taux d'erreurs de mots élevés et une compréhension sémantique limitée.
  2. Des API propriétaires fermées qui combinent une transcription efficace et une compréhension du langage, mais à un coût nettement plus élevé et avec un contrôle moindre sur le déploiement.

Voxtral comble cette lacune. Il offre une précision de pointe et une compréhension sémantique native en libre accès, pour moins de la moitié du prix des API comparables. Cela rend l'intelligence vocale de haute qualité accessible et contrôlable à grande échelle.

Les deux modèles de Voxtral vont au-delà de la simple transcription grâce à des fonctionnalités telles que :

  • Contexte long format : avec une longueur de contexte de 32k tokens, Voxtral traite des audios allant jusqu'à 30 minutes pour la transcription, ou 40 minutes pour la compréhension.
  • Q&R et résumé intégrés : Permet de poser des questions directement sur le contenu audio ou de générer des résumés structurés, sans qu'il soit nécessaire d'enchaîner des modèles ASR et linguistiques distincts.
  • Nativement multilingue : détection automatique de la langue et performances de pointe dans les langues les plus utilisées au monde (anglais, espagnol, français, portugais, hindi, allemand, néerlandais, italien, pour n'en citer que quelques-unes), ce qui permet aux équipes de servir des publics internationaux avec un seul système.
  • Appel de fonctions directement à partir de la voix : Permet de déclencher directement des fonctions de backend, des flux de travail ou des appels d'API en fonction des intentions de l'utilisateur, en transformant les interactions vocales en commandes système exploitables sans étapes d'analyse intermédiaires.
  • Très performant en matière de texte : Conserve les capacités de compréhension de texte de son modèle de langage principal, Mistral Small 3.1.

Ces capacités font des modèles Voxtral des outils idéaux pour les interactions dans le monde réel et les actions en aval, telles que les résumés, les réponses, les analyses et les perspectives. Pour les cas d'utilisation sensibles aux coûts, Voxtral Mini Transcribe surpasse OpenAI Whisper pour moins de la moitié du prix. Pour les cas d'utilisation haut de gamme, Voxtral Small égale les performances de ElevenLabs Scribe, également pour moins de la moitié du prix.


Voici les Benchmarks de Voxtral suivant différents cas d'utilisation :

Transcription de la parole

Pour évaluer les capacités de transcription de Voxtral, les chercheurs de Mistral AI l'ont évalué sur une série de benchmarks anglais et multilingues. Pour chaque tâche, ils ont indiqué le taux d'erreur de mots macro-moyen (plus il est faible, mieux c'est) dans toutes les langues. Pour l'anglais, ils ont indiqué une moyenne pour la forme courte (<30 secondes) et pour la forme longue (>30 secondes).

Voxtral surpasserait largement Whisper large-v3, le modèle de transcription de la parole open-source actuellement le plus performant. Il surpasserait GPT-4o mini Transcribe et Gemini 2.5 Flash dans toutes les tâches, et atteint des résultats de pointe sur la forme courte en anglais et Mozilla Common Voice, surpassant ElevenLabs Scribe et démontrant ses fortes capacités multilingues.


Lors de l'évaluation des langues dans FLEURS, Voxtral Small surpasse Whisper dans toutes les tâches, atteignant des performances de pointe dans un certain nombre de langues européennes.


Compréhension audio

Voxtral Small et Mini sont capables de répondre à des questions directement à partir de la parole, ou en fournissant une invite audio et textuelle. Pour évaluer les capacités de compréhension audio, ils ont créé des versions synthétisées de trois tâches courantes de compréhension de texte. Ils ont également évalué les modèles sur un banc d'essai interne de compréhension audio (AU), où le modèle doit répondre à des questions difficiles sur 40 exemples audio de longue durée. Enfin, ils ont évalué les capacités de traduction vocale sur le benchmark FLEURS-Translation.

Voxtral Small est compétitif par rapport à GPT-4o-mini et Gemini 2.5 Flash dans toutes les tâches, atteignant des performances de pointe dans la traduction de la parole.


Texte

Voxtral conserve les capacités textuelles de son modèle de langage, ce qui lui permet de remplacer Ministral et Mistral Small 3.1.


Que vous fassiez du prototypage sur un ordinateur portable, que vous exécutiez des charges de travail privées sur site ou que vous passiez à la production dans le nuage, la mise en route est simple.

  • Téléchargez et exécutez localement : Voxtral (24B) et Voxtral Mini (3B) sont disponibles au téléchargement sur Hugging Face.
  • Essayez l'API : Intégrez l'intelligence vocale à votre application par un simple appel à l'API. La tarification commence à 0,001 $ par minute, ce qui rend la transcription et la compréhension de haute qualité abordables à grande échelle.
  • Essayez-le sur Le Chat : Essayez Voxtral dans le mode vocal de Le Chat (déployé pour tous les utilisateurs dans les prochaines semaines) - sur le web ou le mobile. Enregistrez ou téléchargez de l'audio, obtenez des transcriptions, posez des questions ou générez des résumés.

Mistral AI propose également des fonctionnalités pour Voxtral conçues pour les entreprises ayant des exigences plus élevées en matière de sécurité, d'échelle ou de domaine spécifique.

Pour rappel, Arthur Mensch a déclaré que chaque pays devrait mettre en place sa propre infrastructure d'intelligence artificielle en raison de ce qu'il prévoit être un énorme changement économique. "L'impact sur le PIB de chaque pays sera à deux chiffres dans les années à venir", a déclaré Mensch, PDG de la startup française Mistral. Accompagné du PDG de NVIDIA, Jensen Huang, les deux hommes ont convenu que chaque pays devait trouver une stratégie nationale en matière d'IA et développer ses propres capacités dans ce domaine.

À propos de Mistral AI

Mistral AI est une startup française spécialisée dans l’intelligence artificielle. Elle propose des modèles de langage avancés en open source, capables de traiter d'importants volumes de données textuelles pour réaliser diverses tâches de traitement du langage naturel (NLP). Fondée en 2023, Mistral AI s'est rapidement imposée comme un acteur mondial de l'IA générative. Ses modèles peuvent être utilisés pour des applications générales ou spécifiques, accessibles via le cloud ou déployées sur site. Cette flexibilité permet une adaptation aux besoins variés des entreprises.

Source : Mistral AI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

La société française Mistral AI lance son API OCR pour la reconnaissance optique de caractères, qui permet d'extraire avec précision des textes structurés et des médias et surpasserait la concurrence

L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs. Mais les hôpitaux continuent de l'utiliser

BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon, entraîné sur 100 000 heures de données vocales du domaine public
Vous avez lu gratuitement 525 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de JPLAROCHE
Membre expérimenté https://www.developpez.com
Le 18/07/2025 à 12:41
Ce que j'aime avec Mistral, c'est qu'il accepte qu'il peut faire des erreurs, bien sûr, il faut lui dire et expliquer. (ps, j'ai un abonnement).
1  0