
Mistral AI publie Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code. Testé sur des capacités d'extraction en contexte jusqu'à 256k tokens, Codestral Mamba pourrait être un excellent assistant de code local.
Mistral AI est une entreprise française spécialisée dans les produits d'intelligence artificielle (IA). Fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind, l'entreprise se concentre sur la production de grands modèles de langage open source, soulignant l'importance fondamentale des logiciels gratuits et open source, et se positionnant comme une alternative aux modèles propriétaires.
En hommage à Cléopâtre, dont le destin glorieux s'est achevé dans les circonstances tragiques d'un serpent, Mistral AI a publié Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code, disponible sous une licence Apache 2.0. Il s'agit d'un modèle instruit avec 7 285 403 648 paramètres.
Contrairement aux modèles Transformer, les modèles Mamba offrent l'avantage d'une inférence en temps linéaire et la possibilité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d'utiliser le modèle de manière intensive et d'obtenir des réponses rapides, quelle que soit la longueur de l'entrée. Cette efficacité est particulièrement pertinente pour les cas d'utilisation de la productivité du code. C'est pourquoi Mistral AI a formé ce modèle avec des capacités de code et de raisonnement avancées, pour lui permettre d'être aussi performant que les modèles SOTA basés sur les transformateurs.
Mistral AI annonce avoir testé Codestral Mamba sur des capacités d'extraction en contexte jusqu'à 256k tokens. On peut s'attendre à ce qu'il soit un excellent assistant de code local.
Vous pouvez déployer Codestral Mamba en utilisant le SDK mistral-inference, qui s'appuie sur les implémentations de référence du dépôt GitHub de Mamba. Le modèle peut également être déployé via TensorRT-LLM. Pour l'inférence locale, gardez un œil sur le support dans llama.cpp. Vous pouvez télécharger les poids bruts à partir de HuggingFace.
Pour faciliter les tests, Mistral AI a rendu Codestral Mamba disponible sur la Plateforme (codestral-mamba-2407), aux côtés de sa grande sœur, Codestral 22B. Alors que Codestral Mamba est disponible sous la licence Apache 2.0, Codestral 22B est disponible sous une licence commerciale pour l'auto-déploiement ou une licence communautaire à des fins de test.
Après la publication de la famille Mixtral, Codestral Mamba est une nouvelle étape pour Mistral AI dans son effort pour étudier et fournir de nouvelles architectures. Il peut être utilisé, modifié et distribué librement, et Mistral AI espère qu'il ouvrira de nouvelles perspectives dans la recherche sur les architectures. Codestral Mamba a été conçu avec l'aide d'Albert Gu et de Tri Dao.
Source : Mistral AI
Et vous ?

Voir aussi :



Vous avez lu gratuitement 5 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.