IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence
D'après un sujet de recherche

Le , par Jade Emy

42PARTAGES

17  0 
Selon une publication, "Mixtral of Experts", le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence. Les chercheurs, auteurs de la publication, livrent les particularités du modèle et sa force par rapport aux autres modèles de même taille.

Cette publication détaille le modèle qui est dans la nature depuis environ un mois. Mixtral 8x7B est très, très bon. Il a une taille approximative de 13 milliards de paramètres, et est classé beaucoup, beaucoup plus haut que les modèles de taille concurrente. Il est étonnamment bon pour un modèle de cette taille et constitue un outil quotidien très performant sur un Mac pour le chat, la saisie de code et d'autres utilisations.

Une chose qui est apparue depuis la publication des poids, et qui n'est pas mentionnée dans ce document, est qu'il semble assez probable que les 8 experts ont tous été ensemencés par Mistral 7B et ont divergé par la suite. Cela a donné lieu à de nombreuses expériences dans la communauté LLM locale avec le clonage de modèles comme moyen de générer des experts à moindre coût. On pensait généralement que l'entraînement d'un réseau 8x7B représenterait autant de travail que l'entraînement de 8 réseaux 7B, mais cela ne semble pas avoir été le cas pour Mistral, ce qui est très intéressant.

Résumé

Nous présentons Mixtral 8x7B, un modèle de langage basé sur un mélange épars d'experts (SMoE). Mixtral a la même architecture que Mistral 7B, à la différence que chaque couche est composée de 8 blocs feedforward (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routeurs sélectionne deux experts pour traiter l'état actuel et combiner leurs résultats. Même si chaque jeton ne voit que deux experts, les experts sélectionnés peuvent être différents à chaque étape. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs pendant l'inférence.

Mixtral a été entraîné avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et du multilinguisme. Nous fournissons également un modèle affiné pour suivre les instructions, Mixtral 8x7B - Instruct, qui surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro, et Llama 2 70B - chat model sur les benchmarks humains. Les modèles de base et d'instruction sont publiés sous la licence Apache 2.0.

Conclusion

Dans cet article, nous avons présenté Mixtral 8x7B, le premier réseau de mélange d'experts à atteindre une performance de pointe parmi les modèles open-source. Mixtral 8x7B Instruct surpasse Claude-2.1, Gemini Pro, et GPT-3.5 Turbo sur des benchmarks d'évaluation humaine. Parce qu'il n'utilise que deux experts à chaque pas de temps, Mixtral n'utilise que 13 milliards de paramètres actifs par jeton tout en surpassant le meilleur modèle précédent utilisant 70 milliards de paramètres par jeton (Llama 2 70B). Nous mettons nos modèles entraînés et affinés à la disposition du public sous la licence Apache 2.0. En partageant nos modèles, nous souhaitons faciliter le développement de nouvelles techniques et applications qui peuvent bénéficier à un large éventail d'industries et de domaines.
Source : "Mixtral of Experts"

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Mistral AI publie un nouvelle version de son modèle de langage open source. La startup française estime avoir le meilleur modèle « en ce qui concerne les compromis coût / performance »

La startup française Mistral AI publie un modèle d'IA open source de 7,3 milliards de paramètres appelé "Mistral 7B", qui serait plus performant que le modèle d'IA Llama 2 13B de Meta

2023, l'année de l'IA ? L'année a été marquée par l'émergence de l'IA générative, une explosion des investissements dans le domaine et l'accélération dans les législations

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de blackcellar
Futur Membre du Club https://www.developpez.com
Le 12/01/2024 à 13:38
Citation Envoyé par Anselme45 Voir le message
Perso, je me pose une question que jamais aucun média ne pose quand ils nous parlent de startup...

Les médias commencent toujours leur article par un "startup ... évaluée à xxx millions de dollars" quand ce n'est pas "évaluée à x milliard", histoire de donner à la startup en question une importance (que souvent elle n'a pas!). A remarquer qu'il ne viendrait jamais à l'idée d'un média d'écrire un "Total, multinationale active dans l'énergie, évaluée à xxx milliards"

Nous avons donc ici un "Mistral : la startup française d'IA évaluée à 260 millions de dollars"

Ok! Alors je pose ma question:

Qui a évalué cette startup à 260 millions? Ses fondateurs? Les financiers qui y ont mis du pognon et espèrent un retour rapide sur investissement?
En fait une startup n'est ni plus ni moins qu'une société en devenir qui a un status particulier. Une évaluation de startups est le prix que les investisseurs imposent à l'entreprise à ses débuts, lorsqu'elle est encore privée. L'évaluation est basée sur un certain nombre de facteurs, notamment le modèle économique de la startup, la taille de son marché, son paysage concurrentiel et son équipe de direction.
La méthode la plus courante pour évaluer une Start-up est la méthode des flux de trésorerie actualisés (DCF). Cette approche actualise les flux de trésorerie futurs attendus de l'entreprise à leur valeur actuelle, en utilisant un taux d'actualisation qui reflète le risque des flux de trésorerie des startups.
Une autre méthode courante d'évaluation des startups est l'analyse des sociétés comparables (CCA). Cette approche examine les sociétés cotées en bourse qui sont similaires à la Start-up en termes de modèle commercial, de taille et de potentiel de croissance, et utilise les valorisations de ces sociétés comme référence.
La dernière méthode bien discutée est la méthode du capital-risque (VC). Cette approche valorise une start-up en fonction du montant d'argent que les sociétés de capital-risque sont prêtes à investir dans l'entreprise. Cette méthode est généralement utilisée pour les startups à un stade ultérieur qui ont déjà levé un capital-risque important. C'est comme ça qu'on procède on choisit la méthode de calcul qui correspond le mieux à la startup qui doit être évaluée.
4  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 07/02/2024 à 10:13
Qui veut parier que l'on va avoir droit prochainement à une news "IA Open rachète Mistral"?

Certains ont depuis longtemps oublié l'objectif premier de toute start-up, faire parler d'elle et se vendre au plus offrant le plus rapidement possible pour que ses fondateurs deviennent riches le plus rapidement possible.

Avec les start-up, on est loin de la philosophie de la PME familiale!!!
4  0 
Avatar de RenarddeFeu
Membre régulier https://www.developpez.com
Le 21/02/2024 à 14:24
J'ai testé mistral-next, et je trouve que mistral-medium produit de meilleurs résultats. Sans compter que des verrous qui n'existent pas dans medium ont été ajoutés dans next, par exemple : next refusera de générer les paroles à la façon d'un artiste connu en invoquant les droits d'auteur, là où medium le fait sans problème.

C'est d'autant plus surprenant qu'OpenAI fait l'exact inverse : GPT-4 a beaucoup moins de restrictions que GPT-3.5. C'est d'ailleurs la principale raison de son Elo score plus élevé selon moi.
3  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 21/02/2024 à 0:57
Mensch a déclaré que Mistral vise à créer des modèles capables de gérer non seulement le texte, mais aussi les images, les sons et les vidéos. Il a également affirmé que Mistral sera en mesure de fournir des modèles adaptés à différents domaines, langues et cultures.
A mon avis la vrai info intéressante est là.

Sinon j'ai essayé le modèle et il semble assez facile de le faire halluciner, bien qu'en dehors de ça il semble être souvent pertinent.
Je sais pas si c'est un truc dérivé de Miqu qui ne dit pas non nom (donc en fait c'est du Llama 70b retravaillé par Mistral AI), ou si c'est vraiment un nouveau modèle. On verra bien, mais pour l'instant ça me parait pas tout à fait au niveau, il y a probablement quelques ajustements d’alignement à faire.

Edit: Au fait Aleph Alpha est une société Allemande et non Anglaise.
2  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 01/02/2024 à 15:26
Quand on voit la différence de performance entre un modèle quantifié en K_4 par rapport à K_8 sur llama.cpp et que le modèle K_4 arrive presque au même niveau que GPT-4, on a potentiellement quelque chose qui pourrait être plus performant que GPT-4 !

Par contre ça signifie que pour avoir un équivalent de GPT-4 en local avec du matériel pour particuliers, il faudrait quelque chose comme 3 4090TI à 24G de VRAM, soit une machine à 8000 balles.

Je ne sais pas quel est le secret de Mistral-AI pour arriver à ce résultat, ça fait plus d'un an qu'il y a des milliers de modèles modifiés à partir de Llama 70b (1 & 2) et aucun n'est arrivé à un tel niveau de performance, mais ils doivent avoir des données et des protocoles d'apprentissage aux petits oignon.

Bravo à eux.
Reste que le modèle ne fait pas tout et que pour l'instant leur API est bien vide comparé à OpenAI.
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 18/04/2024 à 8:30
Citation Envoyé par Anthony Voir le message
"Lorsque la bulle Internet a éclaté la première fois, il s'agissait d'un battage médiatique. Il ne s'agit pas ici de battage médiatique", a déclaré Jamie Dimon, PDG de JPMorgan Chase, au sujet du boom de l'IA en février. "C'est une réalité."
Il y a des gens qui ne partagent pas ce point de vue.

Le temps nous dira qui a raison.
0  0