Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles. Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale.Mistral AI est une entreprise française qui vend des produits d'intelligence artificielle (IA). Elle a été fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind. La société a levé 640 millions de dollars en juin 2024. L'investissement, composé de 503 millions de dollars de capitaux propres et de 142 millions de dollars de dettes, a propulsé la valorisation de l'entreprise à un niveau impressionnant de 6 milliards de dollars. Ce tour de table, mené par General Catalyst, avec des contributions de plusieurs investisseurs nouveaux et existants, représente un vote de confiance majeur dans la poursuite par Mistral d'une technologie d'IA de pointe.
Récemment, Mistral AI a présenté Voxtral, une nouvelle famille de modèles d'IA de compréhension de la parole à la pointe de la technologie. La gamme Voxtral comprend un grand modèle de 24 milliards de paramètres pour les applications de production et un modèle léger de 3 milliards de paramètres conçu pour les déploiements locaux et périphériques, permettant un déploiement à différentes échelles.
Outre leurs options de déploiement flexibles, les deux modèles Voxtral sont publiés sous la licence Apache 2.0 et sont disponibles via l'API de Mistral. En s'appuyant sur cette accessibilité, Mistral propose un point d'accès à la transcription hautement optimisé pour une meilleure rentabilité, et les modèles peuvent être téléchargés à partir de Hugging Face pour une utilisation indépendante.
Au-delà de la transcription standard, Voxtral offre des fonctionnalités avancées telles que la prise en charge du contexte long format, la réponse aux questions intégrée, le résumé natif, le traitement multilingue et l'appel de fonctions directement à partir de l'entrée vocale. Ces capacités étendues prennent en charge les interactions avec le monde réel et les actions en aval, y compris la génération de résumés, la réponse aux questions, la réalisation d'analyses et l'extraction d'informations.
Pour les organisations soucieuses de leur budget, le modèle Voxtral Mini Transcribe surpasse OpenAI Whisper pour un coût inférieur de moitié. Quant à Voxtral Small, il offre des performances comparables à celles d'ElevenLabs Scribe, également pour moins de la moitié du prix. Voxtral peut également être testé via le mode vocal de Mistral Le Chat sur les plateformes web et mobiles.
Extrait de l'annonce de Mistral AI :
La voix a été la première interface de l'humanité - bien avant l'écriture ou la dactylographie, elle nous a permis de partager des idées, de coordonner le travail et de nouer des relations. À mesure que les systèmes numériques deviennent plus performants, la voix redevient la forme la plus naturelle d'interaction entre l'homme et l'ordinateur.
Pourtant, les systèmes actuels restent limités, peu fiables, propriétaires et trop fragiles pour être utilisés dans le monde réel. Pour combler ce fossé, il faut des outils dotés d'une transcription exceptionnelle, d'une compréhension approfondie, d'une maîtrise du multilinguisme et d'un déploiement ouvert et flexible.
Nous lançons les modèles Voxtral pour accélérer cet avenir. Ces modèles de compréhension de la parole à la pointe de la technologie sont disponibles en deux tailles : une variante 24B pour les applications à l'échelle de la production et une variante 3B pour les déploiements locaux et périphériques. Les deux versions sont publiées sous la licence Apache 2.0 et sont également disponibles sur notre API. L'API achemine les requêtes de transcription vers une version de Voxtral Mini optimisée pour la transcription (Voxtral Mini Transcribe) qui offre une efficacité inégalée en termes de coûts et de latence.
Pourtant, les systèmes actuels restent limités, peu fiables, propriétaires et trop fragiles pour être utilisés dans le monde réel. Pour combler ce fossé, il faut des outils dotés d'une transcription exceptionnelle, d'une compréhension approfondie, d'une maîtrise du multilinguisme et d'un déploiement ouvert et flexible.
Nous lançons les modèles Voxtral pour accélérer cet avenir. Ces modèles de compréhension de la parole à la pointe de la technologie sont disponibles en deux tailles : une variante 24B pour les applications à l'échelle de la production et une variante 3B pour les déploiements locaux et périphériques. Les deux versions sont publiées sous la licence Apache 2.0 et sont également disponibles sur notre API. L'API achemine les requêtes de transcription vers une version de Voxtral Mini optimisée pour la transcription (Voxtral Mini Transcribe) qui offre une efficacité inégalée en termes de coûts et de latence.
Jusqu'à récemment, pour obtenir une intelligence vocale réellement utilisable en production, il fallait choisir entre deux compromis :
- Des systèmes ASR open-source avec des taux d'erreurs de mots élevés et une compréhension sémantique limitée.
- Des API propriétaires fermées qui combinent une transcription efficace et une compréhension du langage, mais à un coût nettement plus élevé et avec un contrôle moindre sur le déploiement.
Voxtral comble cette lacune. Il offre une précision de pointe et une compréhension sémantique native en libre accès, pour moins de la moitié du prix des API comparables. Cela rend l'intelligence vocale de haute qualité accessible et...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
