Mistral AI est une entreprise française spécialisée dans les produits d'intelligence artificielle (IA). Fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind, l'entreprise se concentre sur la production de grands modèles de langage open source, soulignant l'importance fondamentale des logiciels gratuits et open source, et se positionnant comme une alternative aux modèles propriétaires.
En hommage à Cléopâtre, dont le destin glorieux s'est achevé dans les circonstances tragiques d'un serpent, Mistral AI a publié Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code, disponible sous une licence Apache 2.0. Il s'agit d'un modèle instruit avec 7 285 403 648 paramètres.
Contrairement aux modèles Transformer, les modèles Mamba offrent l'avantage d'une inférence en temps linéaire et la possibilité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d'utiliser le modèle de manière intensive et d'obtenir des réponses rapides, quelle que soit la longueur de l'entrée. Cette efficacité est particulièrement pertinente pour les cas d'utilisation de la productivité du code. C'est pourquoi Mistral AI a formé ce modèle avec des capacités de code et de raisonnement avancées, pour lui permettre d'être aussi performant que les modèles SOTA basés sur les transformateurs.
Mistral AI annonce avoir testé Codestral Mamba sur des capacités d'extraction en contexte jusqu'à 256k tokens. On peut s'attendre à ce qu'il soit un excellent assistant de code local.
Vous pouvez déployer Codestral Mamba en utilisant le SDK mistral-inference, qui s'appuie sur les implémentations de référence du dépôt GitHub de Mamba. Le modèle peut également être déployé via TensorRT-LLM. Pour l'inférence locale, gardez un œil sur le support dans llama.cpp. Vous pouvez télécharger les poids bruts à partir de HuggingFace.
Pour faciliter les tests, Mistral AI a rendu Codestral Mamba disponible sur la Plateforme (codestral-mamba-2407), aux côtés de sa grande sœur, Codestral 22B. Alors que Codestral Mamba est disponible sous la licence Apache 2.0, Codestral 22B est disponible sous une licence commerciale pour l'auto-déploiement ou une licence communautaire à des fins de test.
Après la publication de la famille Mixtral, Codestral Mamba est une nouvelle étape pour Mistral AI dans son effort pour étudier et fournir de nouvelles architectures. Il peut être utilisé, modifié et distribué librement, et Mistral AI espère qu'il ouvrira de nouvelles perspectives dans la recherche sur les architectures. Codestral Mamba a été conçu avec l'aide d'Albert Gu et de Tri Dao.
Source : Mistral AI
Et vous ?
Avez-vous utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui qu'en pensez-vous ?
Voir aussi :
Mistral AI présente Codestral, un modèle d'IA générative conçu pour les tâches de génération de code : Il permet d'écrire et d'interagir avec le code grâce à une instruction partagée et une API de complétion
Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité
Les défis croissants du code généré par l'IA : le code généré par l'IA pourrait augmenter la charge de travail des développeurs et accroître les risques, selon Harness