IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Mistral présente Voxtral, sa première famille de modèles d'IA de compréhension de la parole en open source, publiée sous la licence Apache 2.0

Le , par Alex

54PARTAGES

8  0 
Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles. Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale.

Mistral AI est une entreprise française qui vend des produits d'intelligence artificielle (IA). Elle a été fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind. La société a levé 640 millions de dollars en juin 2024. L'investissement, composé de 503 millions de dollars de capitaux propres et de 142 millions de dollars de dettes, a propulsé la valorisation de l'entreprise à un niveau impressionnant de 6 milliards de dollars. Ce tour de table, mené par General Catalyst, avec des contributions de plusieurs investisseurs nouveaux et existants, représente un vote de confiance majeur dans la poursuite par Mistral d'une technologie d'IA de pointe.

Récemment, Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles.

Outre leurs options de déploiement flexibles, les deux modèles Voxtral sont publiés sous la licence Apache 2.0 et sont disponibles via l'API de Mistral. En s'appuyant sur cette accessibilité, Mistral propose un point d'accès à la transcription hautement optimisé pour une meilleure rentabilité, et les modèles peuvent être téléchargés à partir de Hugging Face pour une utilisation indépendante.

Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale. Ces capacités étendues prennent en charge les interactions avec le monde réel et les actions en aval, y compris la génération de résumés, la réponse aux questions, la réalisation d'analyses et l'extraction d'informations.

Pour les organisations soucieuses de leur budget, le modèle Voxtral Mini Transcribe surpasse OpenAI Whisper pour un coût inférieur de moitié. Quant à Voxtral Small, il offre des performances comparables à celles d'ElevenLabs Scribe, également pour moins de la moitié du prix. Voxtral peut également être testé via le mode vocal de Mistral Le Chat sur les plateformes web et mobiles.


Extrait de l'annonce de Mistral AI :

La voix a été la première interface de l'humanité - bien avant l'écriture ou la dactylographie, elle nous a permis de partager des idées, de coordonner le travail et de nouer des relations. À mesure que les systèmes numériques deviennent plus performants, la voix redevient la forme la plus naturelle d'interaction entre l'homme et l'ordinateur.

Pourtant, les systèmes actuels restent limités, peu fiables, propriétaires et trop fragiles pour être utilisés dans le monde réel. Pour combler ce fossé, il faut des outils dotés d'une transcription exceptionnelle, d'une compréhension approfondie, d'une maîtrise du multilinguisme et d'un déploiement ouvert et flexible.

Nous lançons les modèles Voxtral pour accélérer cet avenir. Ces modèles de compréhension de la parole à la pointe de la technologie sont disponibles en deux tailles : une variante 24B pour les applications à l'échelle de la production et une variante 3B pour les déploiements locaux et périphériques. Les deux versions sont publiées sous la licence Apache 2.0 et sont également disponibles sur notre API. L'API achemine les requêtes de transcription vers une version de Voxtral Mini optimisée pour la transcription (Voxtral Mini Transcribe) qui offre une efficacité inégalée en termes de coûts et de latence.
Présentation de Voxtral

Jusqu'à récemment, pour obtenir une intelligence vocale réellement utilisable en production, il fallait choisir entre deux compromis :

  1. Des systèmes ASR open-source avec des taux d'erreurs de mots élevés et une compréhension sémantique limitée.
  2. Des API propriétaires fermées qui combinent une transcription efficace et une compréhension du langage, mais à un coût nettement plus élevé et avec un contrôle moindre sur le déploiement.

Voxtral comble cette lacune. Il offre une précision de pointe et une compréhension sémantique native en libre accès, pour moins de la moitié du prix des API comparables. Cela rend l'intelligence vocale de haute qualité accessible et...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de JPLAROCHE
Membre expérimenté https://www.developpez.com
Le 18/07/2025 à 12:41
Ce que j'aime avec Mistral, c'est qu'il accepte qu'il peut faire des erreurs, bien sûr, il faut lui dire et expliquer. (ps, j'ai un abonnement).
1  0 
Avatar de archqt
Membre émérite https://www.developpez.com
Le 20/07/2025 à 23:23
Si on peut télécharger et exécuter le modèle sur son PC, cela veut dire que cela fonctionnera sans internet ni abonnement.
Qu'est ce qui va empêcher les gens de faire cela au lieu de passer par l'API avec abonnement (sur un PC je veux dire) ?

Je m'interroge sur le fait de donner le modèle entraîné, gratuitement.
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 21/07/2025 à 13:40
Citation Envoyé par archqt Voir le message
Si on peut télécharger et exécuter le modèle sur son PC, cela veut dire que cela fonctionnera sans internet ni abonnement.
Qu'est ce qui va empêcher les gens de faire cela au lieu de passer par l'API avec abonnement (sur un PC je veux dire) ?

Je m'interroge sur le fait de donner le modèle entraîné, gratuitement.
Lu sur hugging face : Running Voxtral-Small-24B-2507 on GPU requires ~55 GB of GPU RAM in bf16 or fp16.
Tout le monde n'a pas 55Go de VRAM ni la capacité de rentabiliser ce genre de config. Pour eux il y a le SaaS.

On peut même imaginer qu'après avoir publié gratuitement un modèle aussi bien que la concurrence payante, ils mettront en SaaS seulement voxtral large qui sera encore mieux...
0  0