IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La startup française Mistral AI publie un modèle d'IA open source de 7,3 milliards de paramètres appelé "Mistral 7B",
Qui serait plus performant que le modèle d'IA Llama 2 13B de Meta

Le , par Mathis Lucas

2PARTAGES

6  0 
Les grands modèles de langage (LLM) open source commencent à se multiplier malgré les préoccupations liées aux potentiels mauvais usages. La startup d'IA française Mistral AI vient de publier son premier modèle de langage open source baptisé Mistral 7B avec 7,3 milliards de paramètres. En dépit de sa taille relativement petite, Mistral 7B serait beaucoup plus performant que modèle Llama 2 de Meta. Le modèle de Meta comprend 13 milliards de paramètres. Mistral 7B peut être téléchargé par différents canaux, dont un fichier torrent de 13,4 Go. La société a également annoncé avoir lancé un dépôt GitHub et un canal Discord pour la collaboration et le dépannage.

Mistral AI veut démocratiser l'accès à l'IA et réduire la taille des modèles de langage

Le modèle open source, appelé Mistral 7B, peut traiter des tâches en anglais tout en offrant des capacités de codage naturel, ce qui en fait une nouvelle option pour de nombreux cas d'utilisation centrés sur l'entreprise. Mistral AI a annoncés que Mistral 7B sera suivi par des modèles plus importants et des offres commerciales. « Nous disposons de méthodes de formation qui nous rendent plus efficaces et deux fois moins coûteuses à mettre en œuvre », a déclaré Arthur Mensch, directeur général de Mistral AI, lors d'un entretien avec Bloomberg. En plus de vouloir démocratiser l'IA, le but de l'entreprise semble de réduire considérablement la taille des modèles.

Avec 7 milliards de paramètres, Mistral 7B est plus petit que Llama 2 13B qui comprend 13 milliards de paramètres, mais serait beaucoup plus performant. En effet, les modèles de base - tels que GPT-3 (le plus grand modèle de langage à ce jour avec environ 175 milliards de paramètres) et GPT-4 (OpenAI n'a pas dévoilé le nombre de paramètres de ce modèle) - peuvent faire beaucoup plus, mais sont beaucoup plus coûteux et difficiles à exécuter, ce qui les conduit à être disponibles uniquement par le biais d'API ou d'accès à distance. Mistral 7B veut offrir des capacités similaires à ceux des plus grands LLM avec un coût de calcul considérablement plus faible.


« Notre ambition est de devenir le principal soutien de la communauté ouverte de l'IA générative et d'amener les modèles ouverts à des performances de pointe. Les performances de Mistral 7B démontrent ce que les petits modèles d'IA peuvent faire avec suffisamment de conviction. C'est le résultat de trois mois de travail intense, au cours desquels nous avons rassemblé l'équipe d'IA de Mistral, reconstruit une pile MLops très performante et conçu un pipeline très sophistiqué pour le traitement de données, en partant de zéro », a écrit l'équipe de Mistral AI dans un billet de blogue accompagnant la publication du modèle. Le billet de blogue indique :

  • Mistral 7B surpasse Llama 2 13B sur tous les points de référence ;
  • Mistral 7B surpasse Llama 1 34B (un modèle de 34 milliards de paramètres) sur de nombreux points de référence ;
  • Mistral 7B approche les performances de CodeLlama 7B sur le code, tout en restant performant sur les tâches en anglais ;
  • Mistral 7B utilise l'approche GQA (Grouped-query attention) pour une inférence plus rapide ;
  • Mistral 7B utilise l'approche SWA (Sliding Window Attention) pour traiter des séquences plus longues à moindre coût.


Selon le billet de blogue, dans le test MMLU (Massive Multitask Language Understanding) - un test qui couvre 57 sujets tels que les mathématiques, l'histoire des États-Unis, l'informatique, le droit, etc. - le nouveau modèle a obtenu une précision de 60,1 %, alors que Llama 2 7B et 13B n'ont obtenu qu'un peu plus de 44 % et 55 %, respectivement. Dans les tests portant sur "le raisonnement de bon sens" et la compréhension de la lecture, Mistral 7B a surpassé les deux modèles Llama avec une précision de 69 % et 64 %, respectivement. Le seul domaine dans lequel le Llama 2 13B a égalé le Mistral 7B a été le test de connaissance du monde.

Selon Mistral, cela pourrait être dû au nombre limité de paramètres du modèle, qui restreint la quantité de connaissances qu'il peut comprimer. En ce qui concerne les tâches de codage, bien que Mistral qualifie le nouveau modèle de "largement supérieur", les résultats des tests de référence montrent qu'il ne surpasse toujours pas le modèle CodeLlama 7B, qui a été finement ajusté. Les données montrent que le modèle de Meta a fourni une précision de 31,1 % et 52,5 % dans les tests Humaneval 0-shot et MBPP 3-shot (sous-ensemble vérifié à la main), tandis que Mistral 7B suivait de près avec une précision de 30,5 % et 47,5 %, respectivement.

Mistral AI tente d'échapper aux problèmes liés aux licences des modèles open source

Mistral AI poursuit ses projets visant à tenir tête aux plus grands acteurs de la course à l'IA, tels que Google et OpenAI, et démocratiser la technologie. À cet effet, elle a publié mercredi son tout premier modèle d'IA open source. Plus important encore, le modèle a été publié sous la licence Apache 2.0, une licence très permissive qui ne comporte aucune restriction d'utilisation ou de reproduction au-delà de l'attribution. Il peut être utilisé aussi bien par un amateur que par une multinationale ou un gouvernement, pour autant qu'ils disposent d'un système capable de l'exécuter localement ou qu'ils soient prêts à payer pour les ressources en nuage nécessaires.

Fondée au début de l'année par des anciens de DeepMind et Meta de Google, Mistral AI s'est donné pour mission de rendre l'IA utile pour les entreprises en exploitant uniquement les données accessibles a public et celles fournies par les clients. Avec la sortie de Mistral 7B, elle entame ce voyage en fournissant aux équipes un modèle de petite taille capable de résumer rapidement des textes, les classer, les compléter et compléter des codes. Bien qu'il ne s'agisse que d'un début, la démonstration par Mistral d'un petit modèle offrant des performances élevées pour toute une série de tâches pourrait représenter des avantages majeurs pour les entreprises.


Les modèles open source actuels, tels que Llama 2 de Meta et Falcon 180B de l'Institut de l'innovation technologique (TII) d'Abu Dhabi, sont considéré par les critiques comme n'étant pas totalement open source. Ils sont publiés sous des licences interdisant certaines formes d'utilisation. Au sein de la communauté, il y a un débat intense qui vise à confirmer ou non le statut open source de ces modèles. Selon les développeurs de ces modèles, les licences restrictives permettent d'encadrer l'utilisation des modèles et d'empêcher qu'ils servent à de mauvaises causes, mais les critiques affirment que ces restrictions ne sont pas conformes à l'esprit de l'open source.

Google et OpenAI, deux principaux pionniers de l'IA, ont maintenu leurs modèles d'IA fermés, affirmant qu'ils s'inquiètent du fait que les LLM puissent être manipulés pour diffuser des infox ou d'autres contenus potentiellement dangereux. OpenAI a refusé de lever le voile sur GPT-4, son plus puissant LLM à ce jour (on ignore même le nombre de paramètres du modèle) et Google a révélé uniquement que Bard est basé sur son LLM LaMDA de 137 milliards de paramètres. Cependant, les partisans des logiciels libres affirment que le fait de maintenir ces systèmes fermés freine injustement l'innovation et entrave leur potentiel d'amélioration du monde.

Dans le cas de Mistral 7B, bien que la licence soit très permissive, le modèle lui-même a été développé en privé, avec des fonds privés, et les ensembles de données et les poids sont également privés. C'est ce qui semble constituer le modèle commercial de Mistral : le modèle est open source et libre d'utilisation, mais si vous voulez aller plus loin, vous aurez besoin de leur produit payant. « Notre offre commerciale sera distribuée sous forme de solutions en boîte blanche, en mettant à disposition les poids et les sources de code. Nous travaillons activement sur des solutions hébergées et des déploiements dédiés pour les entreprises », indique l'équipe.

Mistral AI prévoit de s'appuyer sur ces travaux pour lancer un modèle plus grand, capable de mieux raisonner et de travailler dans plusieurs langues, qui devrait faire ses débuts en 2024. Pour l'instant, Mistral 7B peut être déployé n'importe où (localement ou sur les services cloud AWS, GCP ou Azure) en utilisant l'implémentation de référence de l'entreprise, le serveur d'inférence vLLM et Skypilot. La startup, qui est basée à Paris, a récemment fait les gros titres avec son logo unique Word Art et un tour de table record de 118 millions de dollars qui est considéré comme le plus grand tour de table de l'histoire de l'Europe.

Source : Mistral AI

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous du modèle Mistral 7B et de ses performances ?
À votre avis, les modèles de petite taille sont-ils l'avenir de l'IA générative ?
Selon vous, pourquoi Mistral 7B a-t-il été publié sous la licence Apache 2.0 ?
Quels avantages cette licence offre-t-elles aux utilisateurs potentiels de Mistral 7B ?
Pourquoi le statut open source des modèles de Llama 2 et Falcon 180B est-il remis en cause ?

Voir aussi

Falcon 180B : un modèle d'IA open source avec 180 milliards de paramètres entraînés sur 3 500 milliards de jetons, il serait plus performant que le modèle Llama 2 de Meta et égale PaLM-2 de Google

Le modèle LLamA-2 de Meta, qui vient d'être publié, ne serait pas open source, de l'avis de Alessio Fanelli, Ingénieur logiciel associé chez Decibel

« L'open source aura un impact plus important sur l'avenir des modèles de langage que le grand public ne le pense », selon un ingénieur logiciel qui affirme que l'IA open source est plus sûre

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 01/10/2023 à 10:59
Perso, je me pose une question que jamais aucun média ne pose quand ils nous parlent de startup...

Les médias commencent toujours leur article par un "startup ... évaluée à xxx millions de dollars" quand ce n'est pas "évaluée à x milliard", histoire de donner à la startup en question une importance (que souvent elle n'a pas!). A remarquer qu'il ne viendrait jamais à l'idée d'un média d'écrire un "Total, multinationale active dans l'énergie, évaluée à xxx milliards"

Nous avons donc ici un "Mistral : la startup française d'IA évaluée à 260 millions de dollars"

Ok! Alors je pose ma question:

Qui a évalué cette startup à 260 millions? Ses fondateurs? Les financiers qui y ont mis du pognon et espèrent un retour rapide sur investissement?
10  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 13/12/2023 à 11:39
Tu devrais essayer leur modèle Mistral-7B, il est devenu la référence parmi les modèles libres.
Depuis le mois de Septembre, il a presque éclipsé Llama de Meta sur HugginfFace et des modèles dérivés comme OpenChat 3.5 sont presque au même niveau que ChatGPT pour une fraction de la taille (et donc en ressources nécessaires).

Donc oui, Mistral AI est bien une des entreprises les plus en vues depuis ces derniers mois.

Range donc tes sarcasmes au tiroir, va militer à la LFI et laisse les gens qui bossent tranquilles.
8  2 
Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 13/12/2023 à 12:22
Une chose est sûr, sur le plan de la qualité de ses modèles, MistralAI ne démérite pour l'instant absolument pas.

C'est marrant, j'ai comme l'impression que si ça avait été le cas, il y aurais de nombreux commentaires moqueurs...
7  1 
Avatar de blackcellar
Futur Membre du Club https://www.developpez.com
Le 12/01/2024 à 13:38
Citation Envoyé par Anselme45 Voir le message
Perso, je me pose une question que jamais aucun média ne pose quand ils nous parlent de startup...

Les médias commencent toujours leur article par un "startup ... évaluée à xxx millions de dollars" quand ce n'est pas "évaluée à x milliard", histoire de donner à la startup en question une importance (que souvent elle n'a pas!). A remarquer qu'il ne viendrait jamais à l'idée d'un média d'écrire un "Total, multinationale active dans l'énergie, évaluée à xxx milliards"

Nous avons donc ici un "Mistral : la startup française d'IA évaluée à 260 millions de dollars"

Ok! Alors je pose ma question:

Qui a évalué cette startup à 260 millions? Ses fondateurs? Les financiers qui y ont mis du pognon et espèrent un retour rapide sur investissement?
En fait une startup n'est ni plus ni moins qu'une société en devenir qui a un status particulier. Une évaluation de startups est le prix que les investisseurs imposent à l'entreprise à ses débuts, lorsqu'elle est encore privée. L'évaluation est basée sur un certain nombre de facteurs, notamment le modèle économique de la startup, la taille de son marché, son paysage concurrentiel et son équipe de direction.
La méthode la plus courante pour évaluer une Start-up est la méthode des flux de trésorerie actualisés (DCF). Cette approche actualise les flux de trésorerie futurs attendus de l'entreprise à leur valeur actuelle, en utilisant un taux d'actualisation qui reflète le risque des flux de trésorerie des startups.
Une autre méthode courante d'évaluation des startups est l'analyse des sociétés comparables (CCA). Cette approche examine les sociétés cotées en bourse qui sont similaires à la Start-up en termes de modèle commercial, de taille et de potentiel de croissance, et utilise les valorisations de ces sociétés comme référence.
La dernière méthode bien discutée est la méthode du capital-risque (VC). Cette approche valorise une start-up en fonction du montant d'argent que les sociétés de capital-risque sont prêtes à investir dans l'entreprise. Cette méthode est généralement utilisée pour les startups à un stade ultérieur qui ont déjà levé un capital-risque important. C'est comme ça qu'on procède on choisit la méthode de calcul qui correspond le mieux à la startup qui doit être évaluée.
4  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 07/02/2024 à 10:13
Qui veut parier que l'on va avoir droit prochainement à une news "IA Open rachète Mistral"?

Certains ont depuis longtemps oublié l'objectif premier de toute start-up, faire parler d'elle et se vendre au plus offrant le plus rapidement possible pour que ses fondateurs deviennent riches le plus rapidement possible.

Avec les start-up, on est loin de la philosophie de la PME familiale!!!
4  0 
Avatar de Mingolito
Membre extrêmement actif https://www.developpez.com
Le 13/12/2023 à 14:53
Il y a des startups bidons qui lèvent des centaines de millions d'euros pour monter des escroqueries à l'IA et au lieu d'IA les services "IA" sont en fait des employés offshore payés une misère, on a vu ça par exemple sur les IA de services aux entreprises, de fastfood et même de robot taxi, mais Mistral c'est du sérieux, ce qu'ils proposent c'est vraiment de l'IA et c'est largement valable.
3  0 
Avatar de RenarddeFeu
Membre régulier https://www.developpez.com
Le 21/02/2024 à 14:24
J'ai testé mistral-next, et je trouve que mistral-medium produit de meilleurs résultats. Sans compter que des verrous qui n'existent pas dans medium ont été ajoutés dans next, par exemple : next refusera de générer les paroles à la façon d'un artiste connu en invoquant les droits d'auteur, là où medium le fait sans problème.

C'est d'autant plus surprenant qu'OpenAI fait l'exact inverse : GPT-4 a beaucoup moins de restrictions que GPT-3.5. C'est d'ailleurs la principale raison de son Elo score plus élevé selon moi.
3  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 01/10/2023 à 10:59
Les criminels et autres cyber délinquants vont leur dire merci...
3  1 
Avatar de micka132
Expert confirmé https://www.developpez.com
Le 09/10/2023 à 15:33
Citation Envoyé par Anselme45 Voir le message
Qui a évalué cette startup à 260 millions? Ses fondateurs? Les financiers qui y ont mis du pognon et espèrent un retour rapide sur investissement?
Un peu de tout ça. Quand une boîte cherche à lever des fonds ou vendre ella va faire un dossier. Dans la majorité des cas le but de la boîte ( actionnaires en place) est d'estimer à la hausse sa valeur.
A l'inverse, ceux qui achètent/ investissent veulent un prix moindre pour avoir plus de part pour moins chères.
Quand tout le monde est d'accord tu as l'évaluation à l'instant T.
Ça c'est le cas général, il y a sûrement des cas où la valeur est vontairement bidonnée pour d'obscures raison fiscales.
2  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 13/12/2023 à 15:29
1.
"Idiotie" écris-tu? Avant d'insulter l'avis des autres, commence par nous fournir la preuve de ce que tu avances! Qui a dit que ton modèle machin est "devenu la référence"?????????????????????????????

Perso, tous ce que je vois... C'est 3 gravures du mode qui posent sur une photo et qui font plus penser au prochain "boys-band" à la mode qu'à des entrepreneurs qui pèsent 2 milliards! Mais peut-être es-tu l'un d'eux?

2.
Seul le temps dit si une entreprise est sérieuse et si elle a du succès ou non! Tout ce que je sais, c'est qu'il n'y a pas une seule entreprise française qui a émergé dans le monde du numérique... Ayons une pensée émue pour Qwant qui était LA startup à succès qui allait détrôner les américains... On a vu ce qu'il est advenu...

3. En l'état, tout ce que je constate est que TA référence fait plus parler d'elle pour obtenir du financement que pour étaler ses succès technologiques.

Alors n'hésite pas, si tu es si convaincu, je t'invite à participer au financement de cette merveilleuse startup à succès et évite d'insulter les autres...Merci!
"Idiotie": Tu peux le voir comme une insulte, mais c'est en miroir de ton message pédant sans argument autre que "vous vous prenez pour qui les français à essayer de rivaliser avec les ricains".

Je dis que le modèle est devenu la référence car en dehors des grands médias qui ne regardent qu'OpenAI et les millliards de Microsoft, il y a beaucoup d'effervescence autour de Mistral IA.

Code : Sélectionner tout
En l'état, tout ce que je constate est que TA référence fait plus parler d'elle pour obtenir du financement que pour étaler ses succès technologiques.
Là oui, on peut vraiment parler d'idiotie.
Alpaca eval:
https://tatsu-lab.github.io/alpaca_eval/

C'est un comparatif où on a tout un tas de problèmes posés au llm qui sont ensuite évaluées par GPT-4.
GPT-4-Turbo est là 97.7 % de réussite, Zephyr-7B est à 90.60%, ChatGPT à 81.71%
Pour info Zephyr-7B est basé sur Mistral et a été développé par les équipes de HuggingFace (cette dernière entreprise étant également créée par des Français, on le rappelle)

Et on rappelle également que ce comparatif n'est pas à jour, qu'OpenChat 3.5 fait mieux et que ces modèles sont minuscules en temps de calcul comparé à GPT4 ou même ChatGPT.

Autre comparatifs:
https://huggingface.co/spaces/Huggin...lm_leaderboard

Si tu regarde bien, il y a tout un tas de modèles basés sur Mistral-7B en haut du tableau et qu'ils sont souvent (suivant la qualité de l'apprentissage) d'un niveau proche de Llama 2 et ses 70 milliards de paramètres.
Il y a également un modèle Chinois récent baptisé Yi qui est également très performant.

Et oui, si tu suivais ce qu'ils se passe en dehors de ce que tu peux trouver sur les médias grand publique, ils ont su créer un réél engouement derrière leurs modèle.
Tu noteras que leur modèle Mistral-7B a été téléchargé plus de 500 000 fois sur huggingface:
https://huggingface.co/mistralai

(Plus de 502K pour le modèle de base, 428K pour le modèle Instruct).

Sans parler des centaines de modèles dérivés:
https://huggingface.co/models?other=...sort=downloads

Et t'imagines bien que ceux qui téléchargent ces modèles sont généralement pas des utilisateurs lambda, nombre de ces téléchargement alimentent des clouds qui génèrent du texte, du code et tout un tas de choses que tu ne vois pas si tu ne regarde que la partie émergée de l'Iceberg
Si c'est pas un succès je sais pas ce que c'est !

Essai de voir ce qu'il se passe en ce moment depuis la sortie de leur denier modèle, c'est le feu, tout un tas de projets comme vLLM ou Llama.cpp sont en plein bouillonement pour le faire tourner.

Concernant le *succès*, tu ne semble regarder que l'aspect financier, mais on en sais rien si OpenAI fait du bénéfice, la seule certitude est qu'ils ont Microsoft derrière eux qui est en mesure de leur fournir des sommes astronomiques et que pour l'instant ils peuvent s'en servir pour essayer d'écraser la concurrence en vendant leurs tokens à perte.

Autrement dit l'avantage d'OpenAI semble plus être financier (et celui de la notoriété du fait d'avoir été les pionniers dans leur branche) que strictement technique.

Tu peux considérer que je t'insulte si tu veux, mais je t'invite vraiment à essayer leur modèle, tu verras, tu découvriras tout un monde :p
Petit indice:
https://github.com/ggerganov/llama.cpp

Et essai ce modèle, tu m'en diras des nouvelles:
https://huggingface.co/TheBloke/Neur...istral-7B-GGUF
2  0