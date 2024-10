Envoyé par Mistral AI Envoyé par

À l'occasion du premier anniversaire de la sortie de Mistral 7B, le modèle qui a révolutionné l'innovation en matière d'IA à la frontière indépendante pour des millions de personnes, nous sommes fiers de présenter deux nouveaux modèles de pointe pour l'informatique sur appareil et les cas d'utilisation à la pointe de la technologie. Nous les appelons les Ministraux : Ministral 3B et Ministral 8B.



Ces modèles établissent une nouvelle frontière en matière de connaissance, de bon sens, de raisonnement, d'appel de fonction et d'efficacité dans la catégorie inférieure à 10B, et peuvent être utilisés ou adaptés à une variété d'utilisations, de l'orchestration de flux de travail agentiques à la création de travailleurs spécialisés. Les deux modèles supportent jusqu'à 128k de longueur de contexte (actuellement 32k sur vLLM) et Ministral 8B dispose d'un modèle d'attention intercalaire spécial à fenêtre coulissante pour une inférence plus rapide et moins gourmande en mémoire.



Nos clients et partenaires les plus innovants demandent de plus en plus souvent une inférence locale et respectueuse de la vie privée pour des applications critiques telles que la traduction sur appareil, les assistants intelligents sans internet, l'analyse locale et la robotique autonome. Les Ministraux ont été conçus pour fournir une solution efficace en termes de calcul et de faible latence pour ces scénarios. De l'amateur indépendant à l'équipe de production mondiale, les Ministraux répondent à une grande variété de cas d'utilisation.



Utilisés en conjonction avec des modèles de langage plus larges tels que Mistral Large, les Ministraux sont également des intermédiaires efficaces pour l'appel de fonctions dans des flux de travail agentiques à plusieurs étapes. Ils peuvent être réglés pour gérer l'analyse des entrées, le routage des tâches et l'appel des API en fonction de l'intention de l'utilisateur dans de multiples contextes, avec une latence et un coût extrêmement faibles.