Mistral AI est une entreprise française fondée en avril 2023, spécialisée dans l'intelligence artificielle (IA) générative. Elle développe des grands modèles de langages open source et propriétaires. En un an, elle réalise trois levées de fonds successives, d'un montant total de plus d'un milliard d'euros, et serait valorisée en juin 2024 à près de six milliards d'euros. Mistral est considérée comme l'un des leaders européens de l'intelligence artificielle.
Mistral AI vient de dévoiler un nouveau modèle de langage qui, selon elle, atteint les performances de modèles trois fois plus grands tout en réduisant considérablement les coûts de calcul. Le nouveau modèle, appelé Mistral Small 3, compte 24 milliards de paramètres et atteint une précision de 81 % sur les critères de référence standard tout en traitant 150 jetons par seconde. L'entreprise le publie sous la licence Apache 2.0, ce qui permet aux entreprises de le modifier et de le déployer librement.
"Nous pensons qu'il s'agit du meilleur modèle parmi tous les modèles de moins de 70 milliards de paramètres", a déclaré Guillaume Lample, directeur scientifique de Mistral. "Nous estimons qu'il est pratiquement au même niveau que Llama 3.3 70B de Meta publié il y a quelques mois, qui est un modèle trois fois plus grand."
L'annonce intervient dans un contexte d'examen minutieux des coûts de développement de l'IA, suite aux affirmations de la startup chinoise DeepSeek selon lesquelles elle a formé un modèle compétitif pour seulement 5,6 millions de dollars. Ces affirmations ont effacé près de 600 milliards de dollars de la valeur boursière de Nvidia, les investisseurs remettant en question les investissements massifs réalisés par les géants américains de la technologie.
Mistral Small 3 : un modèle d'IA open-source plus petit, plus rapide et moins cher
Présentation
Envoyé par Mistral AI
Performances
- Évaluations humaines
Le graphique ci-dessous montre les évaluations de Small 3 sur un ensemble de plus de 1 000 codes propriétaires et invites généralistes. Des évaluateurs ont été chargés de sélectionner la réponse du modèle qu'ils préféraient parmi les générations anonymes produites par Mistral Small 3 par rapport à un autre modèle. Les critères de jugement humain peuvent différer des critères accessibles au public, mais Mistral AI est convaicu de la validité des critères de référence susmentionnés. - Performances du modèle instruit
Le modèle adapté à l'instruction est compétitif par rapport à des modèles de poids ouvert trois fois plus grands que lui et par rapport au modèle propriétaire GPT4o-mini dans les domaines du code, des mathématiques, des connaissances générales et de l'instruction.
La précision des performances sur tous les benchmarks a été obtenue par le même pipeline d'évaluation interne - les chiffres peuvent donc varier légèrement par rapport aux performances précédemment rapportées (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT). Les évaluations basées sur les juges telles que Wildbench, Arena hard et MTBench étaient basées sur gpt-4o-2024-05-13. - Performances du modèle pré-entrainé
Mistral Small 3, un modèle 24B, offre les meilleures performances pour sa catégorie de taille et rivalise avec des modèles trois fois plus grands tels que le Llama 3.3 70B.
Cas d'utilisation
- Assistance à la conversation à réponse rapide : Mistral Small 3 excellerait dans les scénarios où des réponses rapides et précises sont essentielles. Cela inclut les assistants virtuels dans de nombreux scénarios où les utilisateurs attendent un retour d'information immédiat et des interactions en temps quasi réel.
- Appel de fonctions à faible latence : Mistral Small 3 serait capable de gérer l'exécution rapide de fonctions lorsqu'il est utilisé dans le cadre de flux de travail automatisés ou agentiques.
- Ajustement fin pour créer des experts en la matière : Mistral Small 3 peut être affiné pour se spécialiser dans des domaines spécifiques, créant ainsi des experts en la matière très précis. Ceci est particulièrement utile dans des domaines tels que les conseils juridiques, les diagnostics médicaux et l'assistance technique, où les connaissances spécifiques au domaine sont essentielles.
- Inférence locale : Particulièrement utile pour les amateurs et les organisations qui traitent des informations sensibles ou confidentielles. Lorsqu'il est quantifié, Mistral Small 3 peut être exécuté en privé sur une seule RTX 4090 ou un Macbook avec 32 Go de RAM.
Licence
Avec Mistral Small 3, Mistral AI renouvelle son engagement à utiliser la licence Apache 2.0 pour ses modèles à usage général. Mistral AI annonce également s'éloigner progressivement des modèles sous licence MRL. Comme pour Mistral Small 3, les poids des modèles pourront être téléchargés et déployés localement, et pourront être modifiés et utilisés librement. Ces modèles seront également disponibles via une API sans serveur sur la Plateforme, via les déploiements sur site et VPC, la plateforme de personnalisation et d'orchestration, et via les partenaires d'inférence et de cloud.
Les entreprises et les développeurs qui ont besoin de capacités spécialisées (vitesse et contexte accrus, connaissances spécifiques à un domaine, modèles spécifiques à une tâche comme la complétion de code) peuvent compter sur des modèles commerciaux supplémentaires qui complètent ces versions open source pour la communauté.
Mistral AI conclut son annonce en déclarant :
La communauté open-source a connu des jours passionnants ! Mistral Small 3 complète les grands modèles de raisonnement open-source tels que les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement.
Parmi beaucoup d'autres choses, attendez-vous à des modèles de Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir. Rejoignez le voyage si vous êtes enthousiaste (nous recrutons), ou devancez-nous en piratant Mistral Small 3 dès aujourd'hui et en l'améliorant !
Parmi beaucoup d'autres choses, attendez-vous à des modèles de Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir. Rejoignez le voyage si vous êtes enthousiaste (nous recrutons), ou devancez-nous en piratant Mistral Small 3 dès aujourd'hui et en l'améliorant !
Et vous ?
Quel est votre avis sur ce nouveau modèle de Mistral AI ?
Pensez-vous que ces perfomances sont crédibles ou pertinentes ?
Voir aussi :
Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité
Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT
Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur