Les grands modèles de langage (LLM) open source commencent à se multiplier malgré les préoccupations liées aux potentiels mauvais usages. La startup d'IA française Mistral AI vient de publier son premier modèle de langage open source baptisé Mistral 7B avec 7,3 milliards de paramètres. En dépit de sa taille relativement petite, Mistral 7B serait beaucoup plus performant que modèle Llama 2 de Meta. Le modèle de Meta comprend 13 milliards de paramètres. Mistral 7B peut être téléchargé par différents canaux, dont un fichier torrent de 13,4 Go. La société a également annoncé avoir lancé un dépôt GitHub et un canal Discord pour la collaboration et le dépannage.Mistral AI veut démocratiser l'accès à l'IA et réduire la taille des modèles de langage
Le modèle open source, appelé Mistral 7B, peut traiter des tâches en anglais tout en offrant des capacités de codage naturel, ce qui en fait une nouvelle option pour de nombreux cas d'utilisation centrés sur l'entreprise. Mistral AI a annoncés que Mistral 7B sera suivi par des modèles plus importants et des offres commerciales. « Nous disposons de méthodes de formation qui nous rendent plus efficaces et deux fois moins coûteuses à mettre en œuvre », a déclaré Arthur Mensch, directeur général de Mistral AI, lors d'un entretien avec Bloomberg. En plus de vouloir démocratiser l'IA, le but de l'entreprise semble de réduire considérablement la taille des modèles.
Avec 7 milliards de paramètres, Mistral 7B est plus petit que Llama 2 13B qui comprend 13 milliards de paramètres, mais serait beaucoup plus performant. En effet, les modèles de base - tels que GPT-3 (le plus grand modèle de langage à ce jour avec environ 175 milliards de paramètres) et GPT-4 (OpenAI n'a pas dévoilé le nombre de paramètres de ce modèle) - peuvent faire beaucoup plus, mais sont beaucoup plus coûteux et difficiles à exécuter, ce qui les conduit à être disponibles uniquement par le biais d'API ou d'accès à distance. Mistral 7B veut offrir des capacités similaires à ceux des plus grands LLM avec un coût de calcul considérablement plus faible.
« Notre ambition est de devenir le principal soutien de la communauté ouverte de l'IA générative et d'amener les modèles ouverts à des performances de pointe. Les performances de Mistral 7B démontrent ce que les petits modèles d'IA peuvent faire avec suffisamment de conviction. C'est le résultat de trois mois de travail intense, au cours desquels nous avons rassemblé l'équipe d'IA de Mistral, reconstruit une pile MLops très performante et conçu un pipeline très sophistiqué pour le traitement de données, en partant de zéro », a écrit l'équipe de Mistral AI dans un billet de blogue accompagnant la publication du modèle. Le billet de blogue indique :
- Mistral 7B surpasse Llama 2 13B sur tous les points de référence ;
- Mistral 7B surpasse Llama 1 34B (un modèle de 34 milliards de paramètres) sur de nombreux points de référence ;
- Mistral 7B approche les performances de CodeLlama 7B sur le code, tout en restant performant sur les tâches en anglais ;
- Mistral 7B utilise l'approche GQA (Grouped-query attention) pour une inférence plus rapide ;
- Mistral 7B utilise l'approche SWA (Sliding Window Attention) pour traiter des séquences plus longues à moindre coût.
Selon le billet de blogue, dans le test MMLU (Massive Multitask Language Understanding) - un test qui couvre 57 sujets tels que les mathématiques, l'histoire des États-Unis, l'informatique, le droit, etc. - le nouveau modèle a obtenu une précision de 60,1 %, alors que Llama 2 7B et 13B n'ont obtenu qu'un peu plus de 44 % et 55 %, respectivement. Dans les tests portant sur "le raisonnement de bon sens" et la compréhension de la lecture, Mistral 7B a surpassé les deux modèles Llama avec une précision de 69 % et 64 %, respectivement. Le seul domaine dans lequel le Llama 2 13B a égalé le Mistral 7B a été le test de connaissance du monde.
Selon Mistral, cela pourrait être dû au nombre limité de paramètres du modèle, qui restreint la quantité...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
