Nous présentons Mixtral 8x7B, un modèle de langage basé sur un mélange épars d'experts (SMoE). Mixtral a la même architecture que Mistral 7B, à la différence que chaque couche est composée de 8 blocs feedforward (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routeurs sélectionne deux experts pour traiter l'état actuel et combiner leurs résultats. Même si chaque jeton ne voit que deux experts, les experts sélectionnés peuvent être différents à chaque étape. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs pendant l'inférence.Mixtral a été entraîné avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et du multilinguisme. Nous fournissons également un modèle affiné pour suivre les instructions, Mixtral 8x7B - Instruct, qui surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro, et Llama 2 70B - chat model sur les benchmarks humains. Les modèles de base et d'instruction sont publiés sous la licence Apache 2.0.Dans cet article, nous avons présenté Mixtral 8x7B, le premier réseau de mélange d'experts à atteindre une performance de pointe parmi les modèles open-source. Mixtral 8x7B Instruct surpasse Claude-2.1, Gemini Pro, et GPT-3.5 Turbo sur des benchmarks d'évaluation humaine. Parce qu'il n'utilise que deux experts à chaque pas de temps, Mixtral n'utilise que 13 milliards de paramètres actifs par jeton tout en surpassant le meilleur modèle précédent utilisant 70 milliards de paramètres par jeton (Llama 2 70B). Nous mettons nos modèles entraînés et affinés à la disposition du public sous la licence Apache 2.0. En partageant nos modèles, nous souhaitons faciliter le développement de nouvelles techniques et applications qui peuvent bénéficier à un large éventail d'industries et de domaines.