IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût,
Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Le , par Mathis Lucas

145PARTAGES

3  0 
Une étude comparative portant sur les performances des grands modèles de langage (LLM) les plus populaires du marché révèle que la startup française Mistral AI talonne de très près les géants de la Silicon Valley. L'étude compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse (débit en jetons par seconde et latence), la fenêtre contextuelle, etc. Les résultats suggèrent que Mistral 8x7B est le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité. Dans l'ensemble, Mixtral 8x7B semble faire mieux que Gemini Pro de Google.

OpenAI est brièvement devenu le leader incontesté de la course à l'IA ces dernières années et son chatbot d'IA ChatGPT a connu un succès retentissant après son lancement. Mais, même avec ses modèles d'IA les plus avancés, GPT-3.5 et GPT-4 Turbo, OpenAI n'affiche plus désormais une suprématie totale sur les différents benchmarks. Les concurrents d'OpenAI semblent avoir rattrapé en quelques mois leur retard et ont lancé des modèles d'IA qui affichent des performances intéressantes sur plusieurs benchmarks. L'étude comparative des modèles les plus populaires apporte de nouvelles informations sur l'état de l'IA.


L'étude a été réalisée par Artificial Analysis, une plateforme qui fournit des informations pour aider les développeurs, les clients, les chercheurs et les autres utilisateurs de modèles à prendre des décisions éclairées dans leur choix. Elle compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse/rapidité (débit en jetons par seconde et latence), la fenêtre contextuelle, et bien d'autres. Quelques-uns des principaux critères considérés dans l'étude sont :

  • qualité : l'indice représente la performance relative moyenne normalisée sur les benchmarks Chatbot Arena, MMLU et MT-Bench ;
  • prix : prix par jeton, représenté en USD par million de jetons. Le prix est un mélange des prix des jetons d'entrée et de sortie ;
  • prix d'entrée : prix par jeton inclus dans la requête/le message envoyé à l'API, exprimé en USD par million de jetons ;
  • prix de sortie : prix par jeton généré par le modèle (reçu de l'API), représenté en USD par million de jetons ;
  • débit : nombre de jetons reçus par seconde pendant que le modèle génère des jetons (c'est-à-dire après que le premier morceau a été reçu de l'API) ;
  • latence : temps écoulé avant la réception du premier jeton, en secondes, après l'envoi de la demande de l'API ;
  • fenêtre contextuelle : nombre maximum de jetons d'entrée et de sortie combinés. Les jetons de sortie ont généralement une limite nettement inférieure (variable selon le modèle).


En ce qui concerne la qualité, les résultats montrent que le modèle populaire GPT-4 d'OpenAI est le leader incontesté en matière de qualité, toutes mesures confondues. Cependant, des modèles tels que Gemini Pro et Mixtral 8x7B ont atteint la performance GPT-3.5 pour certaines mesures. Il convient toutefois de rappeler que de nombreux rapports signalent que GPT-4 est devenu trop "paresseux". Cela signifie que GPT-4, sur lequel est basée la version payante de ChatGPT, élude certaines questions ou commence parfois à y répondre, mais ne va pas au bout de ses idées, tout en demandant à l'utilisateur de compléter la réponse.


La plainte d'un utilisateur indique : « sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". En revanche, Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) ». De nombreux utilisateurs ont rapporté que ChatGPT donne des réponses de moins en moins utiles et dit parfois simplement non à une requête. OpenAI a déclaré avoir résolu les problèmes de "paresse" de ChatGPT.

Toutefois, le rapport publié par Artificial Analysis attribue une note de 100 à GPT...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !