IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source,
Mais la méthode d'évaluation est controversée

Le , par Mathis Lucas

54PARTAGES

4  0 
Les modèles de langages se sont multipliés depuis le lancement de ChatGPT par OpenAI. Cela a donné lieu à des débats sur le modèle qui fournit les "meilleures" réponses à une question donnée. Il est difficile de répondre à la question, mais un groupe d'experts en IA a lancé la plateforme Chatbot Arena, qui héberge un outil permettant de procéder à une évaluation de type Elo des modèles d'IA. Le site a été lancé en mai et les évaluations recueillies jusque-là suggèrent que GPT-4 Turbo fournit des réponses d'une meilleure que ces rivaux. L'analyse suggère également que les modèles open source sont à la traîne en ce qui concerne la qualité des réponses.

Chatbot Arena est une plateforme permettant de comparer différents grands modèles de langage. Elle utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) La plateforme offre aux utilisateurs divers moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles sur le tableau de classement public. Le projet a été lancé par un groupe appelé LMSYS (Large Model Systems Organization) et est sponsorisé par la startup d'IA Hugging Face.

Le mode bataille de Chatbot Arena permet aux utilisateurs de comparer des modèles de manière anonyme. Par exemple, vous pouvez comparer ChatGPT (GPT 3.5) et Claude. Cela signifie que Chatbot Arena sélectionne lui-même deux modèles et, sans révéler leurs noms, vous permet de les comparer. L'utilisateur de la plateforme de Chatbot Arena peut saisir n'importe quelle question dans le formulaire du site pour voir côte à côte les réponses de deux modèles sélectionnés au hasard. L'identité de chaque modèle est initialement cachée, et les résultats sont annulés si l'un ou l'autre des modèles sélectionnés révèle son identité dans la réponse elle-même.


L'utilisateur doit ensuite choisir le modèle qui a fourni ce qu'il juge être la "meilleur" réponse, avec des options supplémentaires pour une "égalité" ou "les deux sont mauvais". Ce n'est qu'après avoir fourni un classement par paire que l'utilisateur peut découvrir les modèles qu'il a notés. (Une section distincte du site permet aux utilisateurs de choisir deux modèles spécifiques à comparer, sans possibilité de contribuer au vote sur le résultat.) Depuis son lancement public en mai dernier, LMSYS affirme avoir recueilli plus de 130 000 évaluations par paires à l'aveugle pour 45 modèles différents (début décembre). L'équipe en a dégagé quelques conclusions.

Les évaluations par paires des utilisateurs de Chatbot Arena sont analysées à l'aide d'un modèle probabiliste Bradley-Terry. Celui-ci utilise l'échantillonnage aléatoire pour générer une évaluation de type Elo, estimant quel modèle est le plus susceptible de gagner dans une compétition directe contre n'importe quel autre. En outre, les personnes intéressées peuvent également consulter les données brutes de dizaines de milliers d'évaluations humaines de type prompt/réponse ou examiner des statistiques plus détaillées, telles que les taux de victoire directe par paire entre les modèles et les intervalles de confiance pour ces estimations Elo.

La dernière mise à jour du classement de Chatbot Arena révèle que quelques modèles propriétaires battent facilement une large gamme d'alternatives open source. Le modèle GPT-4 Turbo d'OpenAI est largement en tête et seul l'ancien modèle GPT-4 v0314 (abandonné en juin) le talonne. Mais même les versions défuntes de GPT-3.5 Turbo, vieilles de plusieurs mois, dépassent les modèles open source les mieux notés disponibles dans le banc d'essai de Chatbot Arena. Les différents modèles Claude d'Anthropic figurent également en bonne place dans les classements de Chatbot Arena. L'ancien modèle Claude-1 semble faire mieux que Claude-2.0 et Claude-2.1.

Parmi les modèles open source testés, Tulu 2, basé sur le modèle Llama de Meta, et Yi, de 01.ai,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !