La startup française Mistral AI a publié Small 3, un nouveau modèle de langage qui égale les performances des modèles beaucoup plus grands de Meta et OpenAI

Avec la licence Apache 2.0, plus permissive

Le 31 janvier 2025 à 17:23, par Jade Emy

69PARTAGES

La startup française Mistral AI a publié Small 3, un nouveau modèle de langage qui égale les performances des modèles beaucoup plus grands de Meta et OpenAI, avec la licence Apache 2.0, plus permissive.

Mistral AI vient de dévoiler Mistral Small 3, son nouveau modèle d'IA à 24 milliards de paramètres, développé dans un souci de haute performance et de faible latence. Avec une structure optimisée, il se positionne comme une alternative ouverte et transparente aux modèles propriétaires, offrant des résultats comparables à des modèles beaucoup plus grands tels que Llama 3.3 70B et Qwen 32B. Caractérisé par une efficacité de calcul, Small 3 serait un choix idéal pour 80 % des applications génératives basées sur l'IA, garantissant des temps de réponse rapides sans compromettre la précision.

Mistral AI est une entreprise française fondée en avril 2023, spécialisée dans l'intelligence artificielle (IA) générative. Elle développe des grands modèles de langages open source et propriétaires. En un an, elle réalise trois levées de fonds successives, d'un montant total de plus d'un milliard d'euros, et serait valorisée en juin 2024 à près de six milliards d'euros. Mistral est considérée comme l'un des leaders européens de l'intelligence artificielle.

Mistral AI vient de dévoiler un nouveau modèle de langage qui, selon elle, atteint les performances de modèles trois fois plus grands tout en réduisant considérablement les coûts de calcul. Le nouveau modèle, appelé Mistral Small 3, compte 24 milliards de paramètres et atteint une précision de 81 % sur les critères de référence standard tout en traitant 150 jetons par seconde. L'entreprise le publie sous la licence Apache 2.0, ce qui permet aux entreprises de le modifier et de le déployer librement.

"Nous pensons qu'il s'agit du meilleur modèle parmi tous les modèles de moins de 70 milliards de paramètres", a déclaré Guillaume Lample, directeur scientifique de Mistral. "Nous estimons qu'il est pratiquement au même niveau que Llama 3.3 70B de Meta publié il y a quelques mois, qui est un modèle trois fois plus grand."

L'annonce intervient dans un contexte d'examen minutieux des coûts de développement de l'IA, suite aux affirmations de la startup chinoise DeepSeek selon lesquelles elle a formé un modèle compétitif pour seulement 5,6 millions de dollars. Ces affirmations ont effacé près de 600 milliards de dollars de la valeur boursière de Nvidia, les investisseurs remettant en question les investissements massifs réalisés par les géants américains de la technologie.

Mistral Small 3 : un modèle d'IA open-source plus petit, plus rapide et moins cher

Présentation

Envoyé par Mistral AI

Nous présentons aujourd'hui Mistral Small 3, un modèle à 24 milliards de paramètres optimisé pour la latence, publié sous la licence Apache 2.0.

Mistral Small 3 est compétitif par rapport à des modèles plus importants tels que Llama 3.3 70B ou Qwen 32B, et constitue un excellent remplacement ouvert pour des modèles propriétaires opaques tels que GPT4o-mini. Mistral Small 3 est au même niveau que l'instruction Llama 3.3 70B, tout en étant plus de trois fois plus rapide sur le même matériel.

Mistral Small 3 est un modèle pré-entraîné et instruit destiné aux "80 %" des tâches d'IA générative, c'est-à-dire celles qui requièrent un langage robuste et des performances de suivi des instructions, avec une latence très faible.

Nous avons conçu ce nouveau modèle pour saturer les performances à une taille adaptée à un déploiement local. En particulier, Mistral Small 3 comporte beaucoup moins de couches que les modèles concurrents, ce qui réduit considérablement le temps nécessaire à chaque passage. Avec une précision de plus de 81 % sur MMLU et une latence de 150 jetons/s, Mistral Small est actuellement le modèle le plus efficace de sa catégorie.

Nous publions un point de contrôle pré-entraîné et un point de contrôle ajusté aux instructions sous Apache 2.0. Les points de contrôle peuvent servir de base puissante pour accélérer les progrès. Notez que Mistral Small 3 n'est pas entraîné avec des données RL ou synthétiques, et se trouve donc plus tôt dans le pipeline de production de modèles que des modèles comme Deepseek R1 (une technologie open-source formidable et complémentaire !). Il peut servir de modèle de base pour développer les capacités de raisonnement accumulées. Nous sommes impatients de voir comment la communauté open-source l'adoptera et le personnalisera.

Performances

Évaluations humaines

Le graphique ci-dessous montre les évaluations de Small 3 sur un ensemble de plus de 1 000 codes propriétaires et invites généralistes. Des évaluateurs ont été chargés de sélectionner la réponse du modèle qu'ils préféraient parmi les générations anonymes produites par Mistral Small 3 par rapport à un autre modèle. Les critères de jugement humain peuvent différer des critères accessibles au public, mais Mistral AI est convaicu de la validité des critères de référence susmentionnés.
Performances du modèle instruit

Le modèle adapté à l'instruction est compétitif par rapport à des modèles de poids ouvert trois fois plus grands que lui et par rapport au modèle propriétaire GPT4o-mini dans les domaines du code, des mathématiques, des connaissances générales et de l'instruction.

La précision des performances sur tous les benchmarks a été obtenue par le même pipeline d'évaluation interne - les chiffres peuvent donc varier légèrement par rapport aux performances précédemment rapportées (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT). Les évaluations basées sur les juges telles que Wildbench, Arena hard et MTBench étaient basées sur gpt-4o-2024-05-13.
Performances du modèle pré-entrainé

Mistral Small 3, un modèle 24B, offre les meilleures performances pour sa catégorie de taille et rivalise avec des modèles trois fois plus grands tels que le Llama 3.3 70B.

Cas d'utilisation

Assistance à la conversation à réponse rapide : Mistral Small 3 excellerait dans les scénarios où des réponses rapides et précises sont essentielles. Cela inclut les assistants virtuels dans de nombreux scénarios où les utilisateurs attendent un retour d'information immédiat et des interactions en temps quasi réel.
Appel de fonctions à faible latence : Mistral Small 3 serait capable de gérer l'exécution rapide de fonctions lorsqu'il est utilisé dans le cadre de flux de travail automatisés ou agentiques.
Ajustement fin pour créer des experts en la matière : Mistral Small 3 peut être affiné pour se spécialiser dans des domaines spécifiques, créant ainsi des experts en la matière très précis. Ceci est particulièrement utile dans des domaines tels que les conseils juridiques, les diagnostics médicaux et l'assistance technique, où les connaissances spécifiques au domaine sont essentielles.
Inférence locale : Particulièrement utile pour les amateurs et les organisations qui traitent des informations sensibles ou confidentielles. Lorsqu'il est quantifié, Mistral Small 3 peut être exécuté en privé sur une seule RTX 4090 ou un Macbook avec 32 Go de RAM.

Licence

Avec Mistral Small 3, Mistral AI renouvelle son engagement à utiliser la licence Apache 2.0 pour ses modèles à usage général. Mistral AI annonce également s'éloigner progressivement des modèles sous licence MRL. Comme pour Mistral Small 3, les poids des modèles pourront être téléchargés et déployés localement, et pourront être modifiés et utilisés librement. Ces modèles seront également disponibles via une API sans serveur sur la Plateforme, via les déploiements sur site et VPC, la plateforme de personnalisation et d'orchestration, et via les partenaires d'inférence et de cloud.

Les entreprises et les développeurs qui ont besoin de capacités spécialisées (vitesse et contexte accrus, connaissances spécifiques à un domaine, modèles spécifiques à une tâche comme la complétion de code) peuvent compter sur des modèles commerciaux supplémentaires qui complètent ces versions open source pour la communauté.

Mistral AI conclut son annonce en déclarant :

La communauté open-source a connu des jours passionnants ! Mistral Small 3 complète les grands modèles de raisonnement open-source tels que les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement.

Parmi beaucoup d'autres choses, attendez-vous à des modèles de Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir. Rejoignez le voyage si vous êtes enthousiaste (nous recrutons), ou devancez-nous en piratant Mistral Small 3 dès aujourd'hui et en l'améliorant !

Source : Mistral AI

Et vous ?

Quel est votre avis sur ce nouveau modèle de Mistral AI ?

Pensez-vous que ces perfomances sont crédibles ou pertinentes ?

Voir aussi :

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur

Vous avez lu gratuitement 496 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La startup française Mistral AI a publié Small 3, un nouveau modèle de langage qui égale les performances des modèles beaucoup plus grands de Meta et OpenAI

Avec la licence Apache 2.0, plus permissive

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La startup française Mistral AI a publié Small 3, un nouveau modèle de langage qui égale les performances des modèles beaucoup plus grands de Meta et OpenAI Avec la licence Apache 2.0, plus permissive

La startup française Mistral AI a publié Small 3, un nouveau modèle de langage qui égale les performances des modèles beaucoup plus grands de Meta et OpenAI

Avec la licence Apache 2.0, plus permissive