Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût,

Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Le 28 mars 2024 à 13:56, par Mathis Lucas

80PARTAGES

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût
tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Une étude comparative portant sur les performances des grands modèles de langage (LLM) les plus populaires du marché révèle que la startup française Mistral AI talonne de très près les géants de la Silicon Valley. L'étude compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse (débit en jetons par seconde et latence), la fenêtre contextuelle, etc. Les résultats suggèrent que Mistral 8x7B est le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité. Dans l'ensemble, Mixtral 8x7B semble faire mieux que Gemini Pro de Google.

OpenAI est brièvement devenu le leader incontesté de la course à l'IA ces dernières années et son chatbot d'IA ChatGPT a connu un succès retentissant après son lancement. Mais, même avec ses modèles d'IA les plus avancés, GPT-3.5 et GPT-4 Turbo, OpenAI n'affiche plus désormais une suprématie totale sur les différents benchmarks. Les concurrents d'OpenAI semblent avoir rattrapé en quelques mois leur retard et ont lancé des modèles d'IA qui affichent des performances intéressantes sur plusieurs benchmarks. L'étude comparative des modèles les plus populaires apporte de nouvelles informations sur l'état de l'IA.

L'étude a été réalisée par Artificial Analysis, une plateforme qui fournit des informations pour aider les développeurs, les clients, les chercheurs et les autres utilisateurs de modèles à prendre des décisions éclairées dans leur choix. Elle compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse/rapidité (débit en jetons par seconde et latence), la fenêtre contextuelle, et bien d'autres. Quelques-uns des principaux critères considérés dans l'étude sont :

qualité : l'indice représente la performance relative moyenne normalisée sur les benchmarks Chatbot Arena, MMLU et MT-Bench ;
prix : prix par jeton, représenté en USD par million de jetons. Le prix est un mélange des prix des jetons d'entrée et de sortie ;
prix d'entrée : prix par jeton inclus dans la requête/le message envoyé à l'API, exprimé en USD par million de jetons ;
prix de sortie : prix par jeton généré par le modèle (reçu de l'API), représenté en USD par million de jetons ;
débit : nombre de jetons reçus par seconde pendant que le modèle génère des jetons (c'est-à-dire après que le premier morceau a été reçu de l'API) ;
latence : temps écoulé avant la réception du premier jeton, en secondes, après l'envoi de la demande de l'API ;
fenêtre contextuelle : nombre maximum de jetons d'entrée et de sortie combinés. Les jetons de sortie ont généralement une limite nettement inférieure (variable selon le modèle).

En ce qui concerne la qualité, les résultats montrent que le modèle populaire GPT-4 d'OpenAI est le leader incontesté en matière de qualité, toutes mesures confondues. Cependant, des modèles tels que Gemini Pro et Mixtral 8x7B ont atteint la performance GPT-3.5 pour certaines mesures. Il convient toutefois de rappeler que de nombreux rapports signalent que GPT-4 est devenu trop "paresseux". Cela signifie que GPT-4, sur lequel est basée la version payante de ChatGPT, élude certaines questions ou commence parfois à y répondre, mais ne va pas au bout de ses idées, tout en demandant à l'utilisateur de compléter la réponse.

La plainte d'un utilisateur indique : « sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". En revanche, Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) ». De nombreux utilisateurs ont rapporté que ChatGPT donne des réponses de moins en moins utiles et dit parfois simplement non à une requête. OpenAI a déclaré avoir résolu les problèmes de "paresse" de ChatGPT.

Toutefois, le rapport publié par Artificial Analysis attribue une note de 100 à GPT-4 Turbo en matière de qualité des réponses. Il s'agit de la note la plus élevée de l'étude. Claude 3 Opus obtient la même note. Rappelons que lors du lancement de Claude 3, Anthropic a déclaré que la variante Opus rivalise avec GPT-4, voire le surpasse, si l'on considère les performances obtenues dans le cadre de divers tests de référence. Ils sont suivis par les modèles Mistral Large et Mistral 8x7B, qui ont respectivement obtenu la note de 88 et de 62 pour la qualité de leurs réponses. Gemini Pro et GPT-3 Turbo obtiennent la même note (60).

Quant aux mesures relatives à la fenêtre contextuelle, GPT-4 Turbo et Claude se distinguent par leurs grandes fenêtres contextuelles. (Notez qu'il existe un compromis entre la qualité et la taille de la fenêtre contextuelle entre GPT-4 Turbo et Claude 2.1.) Claude 3 Opus et Claude 3 Sonnet d'Anthropic offrent chacun une fenêtre contextuelle de 200 000 jetons. C'est la plus grande fenêtre contextuelle du marché de l'IA. GPT-4 Turbo a une fenêtre contextuelle de 128 000 jetons. Ensuite, les modèles Mistral Large, Mistral Medium, Mistral 8x7B et Gemini Pro ont chacun une fenêtre contextuelle beaucoup plus petite de 32 800 jetons.

Les modèles de meilleure qualité sont généralement plus chers. Cependant, la qualité des modèles varie considérablement et certains modèles open source atteignent aujourd'hui un niveau de qualité très élevé. Le modèle Claude 3 Opus est le modèle le plus cher, avec en moyenne 30 dollars pour un million de jetons. Il est suivi par GPT-4 Turbo (15 dollars pour un million de jetons) et Mistral Large (12 dollars pour un million de jetons). Ensuite, le prix baisse considérablement, avec Gemini Pro (1,8 dollar), Llama 70B (1 dollar) et GPT-3 Turbo (0,8 dollar). Mistral 8x7B est le modèle le moins cher avec en moyenne 0,5 dollar.

Les prix varient considérablement, y compris entre le prix du jeton d'entrée et le prix du jeton de sortie. Selon l'étude, GPT-4 se distingue par un prix supérieur de plusieurs ordres de grandeur à celui de la plupart des autres modèles. Il existe également un compromis entre "la qualité du modèle et le débit", les modèles de meilleure qualité ayant généralement un débit plus faible. En matière de latence, les modèles de la startup française Mistral AI affichent de bonnes performances. Dans le cas de Mistral 8x7B, la latence est de 0,32 seconde et en matière de débit, le modèle peut renvoyer jusqu'à 115,55 jetons par seconde.

Le modèle Llama 70B de Meta affiche des performances similaires en matière de latence (0,33 seconde) avec un débit de 69,59 jetons par seconde. Quant à GPT-4 Turbo, la latence est de 0,63 seconde et le débit de 17,17 jetons par seconde. Les performances de GPT-4 Turbo en matière de latence sont meilleures que celles de Claude 3 Opus. La latence mesurée pour Claude 3 Opus est de 1,46 seconde pour un débit de 25,52 jetons par seconde. Gemini Pro à la latence la plus élevée, soit 1,46 seconde pour un débit de 87,55 jetons par seconde. Mistral Medium et Mistral Large ont la latence la plus faible, soit 0,21 seconde.

Les données de l'analyse montrent que Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent les réponses avec la meilleure qualité. L'étude indique également que la différence de vitesse entre les modèles les plus rapides et les plus lents est supérieure à 3. Il n'y a pas toujours de corrélation entre la taille des paramètres et la vitesse, ou entre le prix et la vitesse. Ces résultats montrent que l'étau se resserre autour d'OpenAI et que ses modèles peuvent être surpassés par des modèles plus récents sur de nombreux benchmarks populaires.

Par ailleurs, une autre étude comparative publiée récemment indique que Claude 3 Opus est le nouveau leader sur le marché de l'IA. La plateforme d'évaluation Chatbot Arena rapporte que les performances de Claude 3 Opus surpassent désormais celle de GPT-4 sur les principaux benchmarks. Claude 3 Opus occupe la première place avec un score Elo de 1253. Deux récents modèles GPT-4 de prévisualisation le suivent de près, avec des notes respectives de 1251 et 1248. Gemini Pro occupe la quatrième place du classement, avec des performances qui sont légèrement supérieures à celles de Claude 3 Sonnet (1198 points).

Le plus petit modèle Claude 3, Haiku, est parvenu à égaler les performances d'une ancienne version de GPT-4. Pour rappel, Anthropic a lancé Claude 3 en trois tailles différentes : Haiku (le plus petit), Sonnet (de taille moyenne) et Opus (le plus grand). Ces résultats signifient qu'OpenAI n'est plus seul à la tête de la course à l'IA et que les performances de ses modèles peuvent être surpassées. Tous les regards sont désormais tournés vers GPT-5, qui est censé être la réponse d'OpenAI à la pression de ses rivaux. OpenAI assure que GPT-5 sera supérieur à la concurrence dès sa sortie, mais n'a pas fixé une date de lancement.

La concurrence entre Mistral AI, Anthropic, OpenAI, Google, etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.

Source : Artificial Analysis

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des mesures réalisées par le site Artificial Analysis ?

Que pensez-vous des performances dont font preuve les modèles de Mistral AI ?

Que signifie ces observations pour le marché de l'IA et pour les utilisateurs des modèles d'IA ?

Voir aussi

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4, ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5

ChatGPT vs. Google Bard vs. Bing Chat vs. Claude : quelle est la meilleure solution d'IA générative ? D'après une étude de SearchEngineLand

Vous avez lu gratuitement 1 248 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût,

Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût,

Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité