Mistral AI est l'une des startups d'IA les plus en vue actuellement. Fondée en avril 2023 et basée à Paris, en France, la société publie de grands modèles de langage (LLM) open source et ses produits sont classés parmi les meilleurs sur le marché. L'entreprise a été victime d'une fuite de données à la fin du mois de janvier. Le 28 janvier, un utilisateur répondant au nom de "Miqu Dev" a publié un ensemble de fichiers sur Hugging Face, la principale plateforme de partage de modèles d'IA et de codes open source. Pris ensemble, ces fichiers constituaient un modèle open source apparemment nouveau, baptisé "miqu-1-70b".
An over-enthusiastic employee of one of our early access customers leaked a quantised (and watermarked) version of an old model we trained and distributed quite openly.
— Arthur Mensch (@arthurmensch) January 31, 2024
To quickly start working with a few selected customers, we retrained this model from Llama 2 the minute we got…
La série de fichiers semblait appartenir à Mistral. Lorsque des volontaires ont enquêté, ils ont découvert que les caractéristiques de l'invite étaient similaires à celles du modèle "Mixtral 8x7b", développé par l'entreprise parisienne. Mixtral 8x7b a été décrit comme le grand modèle de langage open source le plus performant disponible en janvier 2024. Certains testeurs ont rapporté que le modèle "miqu-1-70b semblait surpasser GPT-4 en matière de performances. En outre, des chercheurs en apprentissage automatique ont suggéré que le terme "miqu" pourrait être une abréviation de "Mistral Quantized" (version quantifiée de Mistral).
Dans le domaine de l'apprentissage automatique (machine learning - ML), la quantification fait référence à une technique utilisée pour rendre possible l'exécution de certains modèles d'IA sur des ordinateurs et des puces moins puissants en remplaçant de longues séquences numériques spécifiques dans l'architecture d'un modèle par des séquences plus courtes. Dans les discussions, les utilisateurs ont supposé qu'il pourrait s'agir d'un nouveau modèle secrètement divulgué par l'entreprise elle-même. Mistral est connu pour lancer de nouveaux modèles et des mises à jour sans fanfare par des moyens ésotériques et techniques.
Mercredi, Arthur Mensch, cofondateur et PDG de Mistral, a publié un billet sur X (ex-Twitter) confirmant la fuite et mettant fin aux spéculations. « Un employé trop enthousiaste de l'un de nos clients en accès anticipé a divulgué une version quantifiée (et en filigrane) d'un ancien modèle que nous avons formé et distribué très ouvertement. Pour commencer à travailler rapidement avec quelques clients sélectionnés, nous avons réentraîné ce modèle à partir de Llama 2 dès que nous avons eu accès à l'ensemble de notre cluster ; le préentraînement s'est terminé le jour de la sortie de Mistral 7B », a déclaré Mensch.
LMFAO pic.twitter.com/Ak5Ubi6wWQ
— Alice (e/nya) (@Alice_comfy) January 31, 2024
Il est hilarant de constater que Mensch s'est également rendu sur le site illicite de HuggingFace, non pas pour demander qu'il soit retiré, mais pour laisser un commentaire indiquant que l'auteur de la divulgation pourrait envisager de s'attribuer le produit". Mensch a demandé à la communauté de rester à l'écoute des prochaines sorties de Mistral au sujet de ses outils d'IA. Pour l'heure, il semble que Mistral entraîne non seulement une version de ce modèle dit "miqu" qui s'approche des niveaux de performance de GPT-4, mais qu'il pourrait en fait les égaler ou les dépasser, si l'on interprète ses commentaires avec générosité.
À ce propos, Google a récemment publié une nouvelle version de Bard basée sur son modèle Gemini Pro. Les évaluations ont révélé que cette nouvelle mouture a surclassé GPT-4 en matière de performance et occupe désormais la deuxième place du classement HuggingFace Chatbot Arena, juste derrière GPT-4 Turbo. Ce résultat important a suscité l'enthousiasme et l'impatience de la communauté pendant que Google se prépare à lancer son très attendu Gemini Ultra. De son côté, OpenAI se prépare également à lancer le GPT-5 et s'attend à ce que ce nouveau grand modèle de langage le rapproche un peu plus de l'AGI.
Dans le cas de Mistral, si les performances de son prochain modèle surpassent celles de GPT-4, cela pourrait représenter un moment décisif non seulement pour l'IA générative open source, mais également pour l'ensemble du domaine de l'IA et de l'informatique : depuis sa sortie en mars 2023, GPT-4 est resté le modèle le plus puissant et le plus performant au monde d'après la plupart des critères d'évaluation sur les différents benchmarks. La sortie d'un modèle open source surpassant les performances de GPT-4 exercerait une pression considérable sur OpenAI et ses rivaux qui développent des modèles à source fermée.
Whatever Miqu is, it has some sort of special sauce. It gets an 83.5 on EQ-Bench (evaluated locally), surpassing *every other LLM in the world except GPT-4*. EQ-Bench has a 0.97 correlation w/ MMLU, and a 0.94 correlation w/ Arena Elo. It *beats* Mistral Medium - at Q4_K_M. I… pic.twitter.com/0gOOPjxjPD
— N8 Programs (@N8Programs) January 30, 2024
Selon certains experts, de plus en plus d'entreprises se tournent vers les modèles open source, ou un mélange de modèles open source et propriétaires, pour faire fonctionner leurs applications. Ils estiment qu'OpenAI conserve actuellement l'avantage avec ses modèles GPT-4 Turbo et GPT-4V plus rapides, mais l'écriture sur le mur est assez claire : « la communauté de l'IA open source rattrape rapidement son retard. OpenAI aura-t-elle suffisamment d'avance, et un "fossé" métaphorique avec son GPT Store et d'autres fonctionnalités, pour rester en tête de la course à l'IA la plus performante de l'industrie informatique ? ».
OpenAI teste actuellement en bêta une nouvelle fonctionnalité de ChatGPT qui introduit les conversations multi-GPT. Cela signifie que les utilisateurs pourront interagir avec différents modèles GPT dans la même fenêtre de chat. La fonction est accessible en tapant "@" suivi du nom d'un modèle GPT. Cela permet de créer un assistant universel plus personnalisé dans la même fenêtre de chat qui peut relier les réponses et les compétences de chaque GPT les unes aux autres. La fonction supprime la nécessité de faire des allers-retours entre plusieurs chats avec différents modèles GPT pour terminer un projet ou une tâche.
Source : Arthur Mensch, cofondateur et PDG de Mistral AI
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des performances présumées du modèle d'IA de Mistral ?
Que représenterait pour l'industrie un modèle d'IA open source qui surpasse les performances de GPT-4 ?
Quels impacts cela pourrait avoir sur OpenAI et les grandes entreprises telles que Microsoft et Google?
Selon vous, OpenAI va-t-il demeurer encore longtemps à la tête de la course à l'IA ? Pourquoi ?
Pensez-vous que l'open source va prendre la tête de la course à l'IA dans un avenir proche ?
Voir aussi
Google Bard fait un grand bond en avant et devance GPT-4 dans le classement des modèles d'IA les plus performants, il est toutefois toujours moins performant que GPT-4 Turbo
Une nouvelle fonctionnalité bêta de ChatGPT vous permet d'interagir avec plusieurs modèles GPT dans la même fenêtre de chat, elle est disponible pour certains abonnés de ChatGPT Plus
Meta lance Code Llama 70B, une nouvelle version de son modèle de langage (LLM) beaucoup plus puissante pour rivaliser avec GitHub Copilot