IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Mistral publie Codestral Mamba, un modèle de langage Mamba2 avec 7 milliards de paramètres spécialisé dans la génération de code
Disponible sous licence Apache 2.0

Le , par Jade Emy

14PARTAGES

6  0 
Mistral AI publie Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code. Testé sur des capacités d'extraction en contexte jusqu'à 256k tokens, Codestral Mamba pourrait être un excellent assistant de code local.

Mistral AI est une entreprise française spécialisée dans les produits d'intelligence artificielle (IA). Fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind, l'entreprise se concentre sur la production de grands modèles de langage open source, soulignant l'importance fondamentale des logiciels gratuits et open source, et se positionnant comme une alternative aux modèles propriétaires.

En hommage à Cléopâtre, dont le destin glorieux s'est achevé dans les circonstances tragiques d'un serpent, Mistral AI a publié Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code, disponible sous une licence Apache 2.0. Il s'agit d'un modèle instruit avec 7 285 403 648 paramètres.

Contrairement aux modèles Transformer, les modèles Mamba offrent l'avantage d'une inférence en temps linéaire et la possibilité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d'utiliser le modèle de manière intensive et d'obtenir des réponses rapides, quelle que soit la longueur de l'entrée. Cette efficacité est particulièrement pertinente pour les cas d'utilisation de la productivité du code. C'est pourquoi Mistral AI a formé ce modèle avec des capacités de code et de raisonnement avancées, pour lui permettre d'être aussi performant que les modèles SOTA basés sur les transformateurs.


Mistral AI annonce avoir testé Codestral Mamba sur des capacités d'extraction en contexte jusqu'à 256k tokens. On peut s'attendre à ce qu'il soit un excellent assistant de code local.

Vous pouvez déployer Codestral Mamba en utilisant le SDK mistral-inference, qui s'appuie sur les implémentations de référence du dépôt GitHub de Mamba. Le modèle peut également être déployé via TensorRT-LLM. Pour l'inférence locale, gardez un œil sur le support dans llama.cpp. Vous pouvez télécharger les poids bruts à partir de HuggingFace.

Pour faciliter les tests, Mistral AI a rendu Codestral Mamba disponible sur la Plateforme (codestral-mamba-2407), aux côtés de sa grande sœur, Codestral 22B. Alors que Codestral Mamba est disponible sous la licence Apache 2.0, Codestral 22B est disponible sous une licence commerciale pour l'auto-déploiement ou une licence communautaire à des fins de test.

Après la publication de la famille Mixtral, Codestral Mamba est une nouvelle étape pour Mistral AI dans son effort pour étudier et fournir de nouvelles architectures. Il peut être utilisé, modifié et distribué librement, et Mistral AI espère qu'il ouvrira de nouvelles perspectives dans la recherche sur les architectures. Codestral Mamba a été conçu avec l'aide d'Albert Gu et de Tri Dao.


Source : Mistral AI

Et vous ?

Avez-vous utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui qu'en pensez-vous ?

Voir aussi :

Mistral AI présente Codestral, un modèle d'IA générative conçu pour les tâches de génération de code : Il permet d'écrire et d'interagir avec le code grâce à une instruction partagée et une API de complétion

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Les défis croissants du code généré par l'IA : le code généré par l'IA pourrait augmenter la charge de travail des développeurs et accroître les risques, selon Harness

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 18/07/2024 à 21:07
Ils viennent également de publier un nouveau modèle (Mistral NeMo, avec 12 milliards de paramètres).

Depuis quelques semaines sortent tout un tas de modèles ouverts autour des 10 milliards de paramètres qui ont des qualités supérieures ou égales à ChatGPT (Llama3-8B, puis Gemma-2-9B).
Cette concurrence est assez extraordinaire, il y avait pendant longtemps un décalage entre des petits modèles plus ou moins qualitatifs et bloqués à 7B et loin de la qualités proposée par OpenAI et des modèles qui pouvaient rivaliser avec GPT-4 mais avec plusieurs dizaines de milliards de paramètres (typiquement Llama3-70B)

Là on a Gemma-2 9B, qui est supérieur à GPT-3.5 et maintenant Mistral Nemo qui semble encore plus performant (d'après leurs comparatifs, j'ai pas encore essayé) avec seulement 12 milliards de paramètres.
C'est assez excitant.
1  0