Cette publication détaille le modèle qui est dans la nature depuis environ un mois. Mixtral 8x7B est très, très bon. Il a une taille approximative de 13 milliards de paramètres, et est classé beaucoup, beaucoup plus haut que les modèles de taille concurrente. Il est étonnamment bon pour un modèle de cette taille et constitue un outil quotidien très performant sur un Mac pour le chat, la saisie de code et d'autres utilisations.
Une chose qui est apparue depuis la publication des poids, et qui n'est pas mentionnée dans ce document, est qu'il semble assez probable que les 8 experts ont tous été ensemencés par Mistral 7B et ont divergé par la suite. Cela a donné lieu à de nombreuses expériences dans la communauté LLM locale avec le clonage de modèles comme moyen de générer des experts à moindre coût. On pensait généralement que l'entraînement d'un réseau 8x7B représenterait autant de travail que l'entraînement de 8 réseaux 7B, mais cela ne semble pas avoir été le cas pour Mistral, ce qui est très intéressant.
Résumé
Nous présentons Mixtral 8x7B, un modèle de langage basé sur un mélange épars d'experts (SMoE). Mixtral a la même architecture que Mistral 7B, à la différence que chaque couche est composée de 8 blocs feedforward (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routeurs sélectionne deux experts pour traiter l'état actuel et combiner leurs résultats. Même si chaque jeton ne voit que deux experts, les experts sélectionnés peuvent être différents à chaque étape. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs pendant l'inférence.
Mixtral a été entraîné avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et du multilinguisme. Nous fournissons également un modèle affiné pour suivre les instructions, Mixtral 8x7B - Instruct, qui surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro, et Llama 2 70B - chat model sur les benchmarks humains. Les modèles de base et d'instruction sont publiés sous la licence Apache 2.0.
Conclusion
Dans cet article, nous avons présenté Mixtral 8x7B, le premier réseau de mélange d'experts à atteindre une performance de pointe parmi les modèles open-source. Mixtral 8x7B Instruct surpasse Claude-2.1, Gemini Pro, et GPT-3.5 Turbo sur des benchmarks d'évaluation humaine. Parce qu'il n'utilise que deux experts à chaque pas de temps, Mixtral n'utilise que 13 milliards de paramètres actifs par jeton tout en surpassant le meilleur modèle précédent utilisant 70 milliards de paramètres par jeton (Llama 2 70B). Nous mettons nos modèles entraînés et affinés à la disposition du public sous la licence Apache 2.0. En partageant nos modèles, nous souhaitons faciliter le développement de nouvelles techniques et applications qui peuvent bénéficier à un large éventail d'industries et de domaines.
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Mistral AI publie un nouvelle version de son modèle de langage open source. La startup française estime avoir le meilleur modèle « en ce qui concerne les compromis coût / performance »
La startup française Mistral AI publie un modèle d'IA open source de 7,3 milliards de paramètres appelé "Mistral 7B", qui serait plus performant que le modèle d'IA Llama 2 13B de Meta
2023, l'année de l'IA ? L'année a été marquée par l'émergence de l'IA générative, une explosion des investissements dans le domaine et l'accélération dans les législations