
Chatbot Arena est une plateforme permettant de comparer différents grands modèles de langage. Elle utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) La plateforme offre aux utilisateurs divers moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles sur le tableau de classement public. Le projet a été lancé par un groupe appelé LMSYS (Large Model Systems Organization) et est sponsorisé par la startup d'IA Hugging Face.
Le mode bataille de Chatbot Arena permet aux utilisateurs de comparer des modèles de manière anonyme. Par exemple, vous pouvez comparer ChatGPT (GPT 3.5) et Claude. Cela signifie que Chatbot Arena sélectionne lui-même deux modèles et, sans révéler leurs noms, vous permet de les comparer. L'utilisateur de la plateforme de Chatbot Arena peut saisir n'importe quelle question dans le formulaire du site pour voir côte à côte les réponses de deux modèles sélectionnés au hasard. L'identité de chaque modèle est initialement cachée, et les résultats sont annulés si l'un ou l'autre des modèles sélectionnés révèle son identité dans la réponse elle-même.
L'utilisateur doit ensuite choisir le modèle qui a fourni ce qu'il juge être la "meilleur" réponse, avec des options supplémentaires pour une "égalité" ou "les deux sont mauvais". Ce n'est qu'après avoir fourni un classement par paire que l'utilisateur peut découvrir les modèles qu'il a notés. (Une section distincte du site permet aux utilisateurs de choisir deux modèles spécifiques à comparer, sans possibilité de contribuer au vote sur le résultat.) Depuis son lancement public en mai dernier, LMSYS affirme avoir recueilli plus de 130 000 évaluations par paires à l'aveugle pour 45 modèles différents (début décembre). L'équipe en a dégagé quelques conclusions.
Les évaluations par paires des utilisateurs de Chatbot Arena sont analysées à l'aide d'un modèle probabiliste Bradley-Terry. Celui-ci utilise l'échantillonnage aléatoire pour générer une évaluation de type Elo, estimant quel modèle est le plus susceptible de gagner dans une compétition directe contre n'importe quel autre. En outre, les personnes intéressées peuvent également consulter les données brutes de dizaines de milliers d'évaluations humaines de type prompt/réponse ou examiner des statistiques plus détaillées, telles que les taux de victoire directe par paire entre les modèles et les intervalles de confiance pour ces estimations Elo.
La dernière mise à jour du classement de Chatbot Arena révèle que quelques modèles propriétaires battent facilement une large gamme d'alternatives open source. Le modèle GPT-4 Turbo d'OpenAI est largement en tête et seul l'ancien modèle GPT-4 v0314 (abandonné en juin) le talonne. Mais même les versions défuntes de GPT-3.5 Turbo, vieilles de plusieurs mois, dépassent les modèles open source les mieux notés disponibles dans le banc d'essai de Chatbot Arena. Les différents modèles Claude d'Anthropic figurent également en bonne place dans les classements de Chatbot Arena. L'ancien modèle Claude-1 semble faire mieux que Claude-2.0 et Claude-2.1.
Parmi les modèles open source testés, Tulu 2, basé sur le modèle Llama de Meta, et Yi, de 01.ai,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.