IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite,
Ces résultats accentuent la pression sur OpenAI

Le , par Mathis Lucas

26PARTAGES

6  0 
Arthur Mensch, PDG de la startup française d'IA Mistral, a confirmé qu'un nouveau modèle d'IA de pointe en cours de développement par l'entreprise a fait l'objet de fuite. Les fichiers sources du modèle de Mistral ont été divulgués le 28 janvier sur la plateforme d'IA open source Hugging Face par un utilisateur avec le pseudonyme "Miqu Dev". Les premières évaluations indiquent que le modèle affiche des performances proches de celles du modèle GPT-4 d'OpenAI, notamment sur le benchmark EQ-Bench. La fuite serait "l'œuvre d'un employé trop enthousiaste de l'un des clients de Mistral qui dispose d'un accès anticipé aux produits de l'entreprise".

Mistral AI est l'une des startups d'IA les plus en vue actuellement. Fondée en avril 2023 et basée à Paris, en France, la société publie de grands modèles de langage (LLM) open source et ses produits sont classés parmi les meilleurs sur le marché. L'entreprise a été victime d'une fuite de données à la fin du mois de janvier. Le 28 janvier, un utilisateur répondant au nom de "Miqu Dev" a publié un ensemble de fichiers sur Hugging Face, la principale plateforme de partage de modèles d'IA et de codes open source. Pris ensemble, ces fichiers constituaient un modèle open source apparemment nouveau, baptisé "miqu-1-70b".

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">An over-enthusiastic employee of one of our early access customers leaked a quantised (and watermarked) version of an old model we trained and distributed quite openly.<br><br>To quickly start working with a few selected customers, we retrained this model from Llama 2 the minute we got…</p>&mdash; Arthur Mensch (@arthurmensch) <a href="https://twitter.com/arthurmensch/status/1752737462663684344?ref_src=twsrc%5Etfw">January 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

La série de fichiers semblait appartenir à Mistral. Lorsque des volontaires ont enquêté, ils ont découvert que les caractéristiques de l'invite étaient similaires à celles du modèle "Mixtral 8x7b", développé par l'entreprise parisienne. Mixtral 8x7b a été décrit comme le grand modèle de langage open source le plus performant disponible en janvier 2024. Certains testeurs ont rapporté que le modèle "miqu-1-70b semblait surpasser GPT-4 en matière de performances. En outre, des chercheurs en apprentissage automatique ont suggéré que le terme "miqu" pourrait être une abréviation de "Mistral Quantized" (version quantifiée de Mistral).

Dans le domaine de l'apprentissage automatique (machine learning - ML), la quantification fait référence à une technique utilisée pour rendre possible l'exécution de certains modèles d'IA sur des ordinateurs et des puces moins puissants en remplaçant de longues séquences numériques spécifiques dans l'architecture d'un modèle par des séquences plus courtes. Dans les discussions, les utilisateurs ont supposé qu'il pourrait s'agir d'un nouveau modèle secrètement divulgué par l'entreprise elle-même. Mistral est connu pour lancer de nouveaux modèles et des mises à jour sans fanfare par des moyens ésotériques et techniques.

Mercredi, Arthur Mensch, cofondateur et PDG de Mistral, a publié un billet sur X (ex-Twitter) confirmant la fuite et mettant fin aux spéculations. « Un employé trop enthousiaste de l'un de nos clients en accès anticipé a divulgué une version quantifiée (et en filigrane) d'un ancien modèle que nous avons formé et distribué très ouvertement. Pour commencer à travailler rapidement avec quelques clients sélectionnés, nous avons réentraîné ce modèle à partir de Llama 2 dès que nous avons eu accès à l'ensemble de notre cluster ; le préentraînement s'est terminé le jour de la sortie de Mistral 7B », a déclaré Mensch.

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">LMFAO <a href="https://t.co/Ak5Ubi6wWQ">pic.twitter.com/Ak5Ubi6wWQ</a></p>&mdash; Alice (e/nya) (@Alice_comfy) <a href="https://twitter.com/Alice_comfy/status/1752740896695844908?ref_src=twsrc%5Etfw">January 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

Il est hilarant de constater que Mensch s'est également rendu sur le site illicite de HuggingFace, non pas pour demander qu'il soit retiré, mais pour laisser un commentaire indiquant que l'auteur de la divulgation pourrait envisager de s'attribuer le produit". Mensch a demandé à la communauté de rester à l'écoute des prochaines sorties de Mistral au sujet de ses outils d'IA. Pour l'heure, il semble que Mistral entraîne non seulement une version de ce modèle dit "miqu" qui s'approche des niveaux de performance de GPT-4, mais qu'il pourrait en fait les égaler ou les dépasser, si l'on interprète ses commentaires avec générosité.

À ce propos, Google a récemment publié une nouvelle version de Bard basée sur son modèle Gemini Pro. Les évaluations ont révélé que cette nouvelle mouture a surclassé GPT-4 en matière de performance et occupe désormais la deuxième place du classement HuggingFace Chatbot Arena, juste derrière GPT-4 Turbo. Ce résultat important a suscité l'enthousiasme et l'impatience de la communauté pendant que Google se prépare à lancer son très attendu Gemini Ultra. De son côté, OpenAI se prépare également à lancer le GPT-5 et s'attend à ce que ce nouveau grand modèle de langage le rapproche un peu plus de l'AGI.

Dans le cas de Mistral, si les performances de son prochain modèle surpassent celles de GPT-4, cela pourrait représenter un moment décisif non seulement pour l'IA générative open source, mais également pour l'ensemble du domaine de l'IA et de l'informatique : depuis sa sortie en mars 2023, GPT-4 est resté le modèle le plus puissant et le plus performant au monde d'après la plupart des critères d'évaluation sur les différents benchmarks. La sortie d'un modèle open source surpassant les performances de GPT-4 exercerait une pression considérable sur OpenAI et ses rivaux qui développent des modèles à source fermée.

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Whatever Miqu is, it has some sort of special sauce. It gets an 83.5 on EQ-Bench (evaluated locally), surpassing *every other LLM in the world except GPT-4*. EQ-Bench has a 0.97 correlation w/ MMLU, and a 0.94 correlation w/ Arena Elo. It *beats* Mistral Medium - at Q4_K_M. I… <a href="https://t.co/0gOOPjxjPD">pic.twitter.com/0gOOPjxjPD</a></p>&mdash; N8 Programs (@N8Programs) <a href="https://twitter.com/N8Programs/status/1752441060133892503?ref_src=twsrc%5Etfw">January 30, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

Selon certains experts, de plus en plus d'entreprises se tournent vers les modèles open source, ou un mélange de modèles open source et propriétaires, pour faire fonctionner leurs applications. Ils estiment qu'OpenAI conserve actuellement l'avantage avec ses modèles GPT-4 Turbo et GPT-4V plus rapides, mais l'écriture sur le mur est assez claire : « la communauté de l'IA open source rattrape rapidement son retard. OpenAI aura-t-elle suffisamment d'avance, et un "fossé" métaphorique avec son GPT Store et d'autres fonctionnalités, pour rester en tête de la course à l'IA la plus performante de l'industrie informatique ? ».

OpenAI teste actuellement en bêta une nouvelle fonctionnalité de ChatGPT qui introduit les conversations multi-GPT. Cela signifie que les utilisateurs pourront interagir avec différents modèles GPT dans la même fenêtre de chat. La fonction est accessible en tapant "@" suivi du nom d'un modèle GPT. Cela permet de créer un assistant universel plus personnalisé dans la même fenêtre de chat qui peut relier les réponses et les compétences de chaque GPT les unes aux autres. La fonction supprime la nécessité de faire des allers-retours entre plusieurs chats avec différents modèles GPT pour terminer un projet ou une tâche.

Source : Arthur Mensch, cofondateur et PDG de Mistral AI

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des performances présumées du modèle d'IA de Mistral ?
Que représenterait pour l'industrie un modèle d'IA open source qui surpasse les performances de GPT-4 ?
Quels impacts cela pourrait avoir sur OpenAI et les grandes entreprises telles que Microsoft et Google?
Selon vous, OpenAI va-t-il demeurer encore longtemps à la tête de la course à l'IA ? Pourquoi ?
Pensez-vous que l'open source va prendre la tête de la course à l'IA dans un avenir proche ?

Voir aussi

Google Bard fait un grand bond en avant et devance GPT-4 dans le classement des modèles d'IA les plus performants, il est toutefois toujours moins performant que GPT-4 Turbo

Une nouvelle fonctionnalité bêta de ChatGPT vous permet d'interagir avec plusieurs modèles GPT dans la même fenêtre de chat, elle est disponible pour certains abonnés de ChatGPT Plus

Meta lance Code Llama 70B, une nouvelle version de son modèle de langage (LLM) beaucoup plus puissante pour rivaliser avec GitHub Copilot

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 07/02/2024 à 10:13
Qui veut parier que l'on va avoir droit prochainement à une news "IA Open rachète Mistral"?

Certains ont depuis longtemps oublié l'objectif premier de toute start-up, faire parler d'elle et se vendre au plus offrant le plus rapidement possible pour que ses fondateurs deviennent riches le plus rapidement possible.

Avec les start-up, on est loin de la philosophie de la PME familiale!!!
4  0 
Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 21/02/2024 à 14:24
J'ai testé mistral-next, et je trouve que mistral-medium produit de meilleurs résultats. Sans compter que des verrous qui n'existent pas dans medium ont été ajoutés dans next, par exemple : next refusera de générer les paroles à la façon d'un artiste connu en invoquant les droits d'auteur, là où medium le fait sans problème.

C'est d'autant plus surprenant qu'OpenAI fait l'exact inverse : GPT-4 a beaucoup moins de restrictions que GPT-3.5. C'est d'ailleurs la principale raison de son Elo score plus élevé selon moi.
3  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 21/02/2024 à 0:57
Mensch a déclaré que Mistral vise à créer des modèles capables de gérer non seulement le texte, mais aussi les images, les sons et les vidéos. Il a également affirmé que Mistral sera en mesure de fournir des modèles adaptés à différents domaines, langues et cultures.
A mon avis la vrai info intéressante est là.

Sinon j'ai essayé le modèle et il semble assez facile de le faire halluciner, bien qu'en dehors de ça il semble être souvent pertinent.
Je sais pas si c'est un truc dérivé de Miqu qui ne dit pas non nom (donc en fait c'est du Llama 70b retravaillé par Mistral AI), ou si c'est vraiment un nouveau modèle. On verra bien, mais pour l'instant ça me parait pas tout à fait au niveau, il y a probablement quelques ajustements d’alignement à faire.

Edit: Au fait Aleph Alpha est une société Allemande et non Anglaise.
2  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 01/02/2024 à 15:26
Quand on voit la différence de performance entre un modèle quantifié en K_4 par rapport à K_8 sur llama.cpp et que le modèle K_4 arrive presque au même niveau que GPT-4, on a potentiellement quelque chose qui pourrait être plus performant que GPT-4 !

Par contre ça signifie que pour avoir un équivalent de GPT-4 en local avec du matériel pour particuliers, il faudrait quelque chose comme 3 4090TI à 24G de VRAM, soit une machine à 8000 balles.

Je ne sais pas quel est le secret de Mistral-AI pour arriver à ce résultat, ça fait plus d'un an qu'il y a des milliers de modèles modifiés à partir de Llama 70b (1 & 2) et aucun n'est arrivé à un tel niveau de performance, mais ils doivent avoir des données et des protocoles d'apprentissage aux petits oignon.

Bravo à eux.
Reste que le modèle ne fait pas tout et que pour l'instant leur API est bien vide comparé à OpenAI.
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 18/04/2024 à 8:30
Citation Envoyé par Anthony Voir le message
"Lorsque la bulle Internet a éclaté la première fois, il s'agissait d'un battage médiatique. Il ne s'agit pas ici de battage médiatique", a déclaré Jamie Dimon, PDG de JPMorgan Chase, au sujet du boom de l'IA en février. "C'est une réalité."
Il y a des gens qui ne partagent pas ce point de vue.

Le temps nous dira qui a raison.
0  0