Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source,

Mais la méthode d'évaluation est controversée

Le 14 décembre 2023 à 17:25, par Mathis Lucas

256PARTAGES

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source
mais la méthode d'évaluation est controversée

Les modèles de langages se sont multipliés depuis le lancement de ChatGPT par OpenAI. Cela a donné lieu à des débats sur le modèle qui fournit les "meilleures" réponses à une question donnée. Il est difficile de répondre à la question, mais un groupe d'experts en IA a lancé la plateforme Chatbot Arena, qui héberge un outil permettant de procéder à une évaluation de type Elo des modèles d'IA. Le site a été lancé en mai et les évaluations recueillies jusque-là suggèrent que GPT-4 Turbo fournit des réponses d'une meilleure que ces rivaux. L'analyse suggère également que les modèles open source sont à la traîne en ce qui concerne la qualité des réponses.

Chatbot Arena est une plateforme permettant de comparer différents grands modèles de langage. Elle utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) La plateforme offre aux utilisateurs divers moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles sur le tableau de classement public. Le projet a été lancé par un groupe appelé LMSYS (Large Model Systems Organization) et est sponsorisé par la startup d'IA Hugging Face.

Le mode bataille de Chatbot Arena permet aux utilisateurs de comparer des modèles de manière anonyme. Par exemple, vous pouvez comparer ChatGPT (GPT 3.5) et Claude. Cela signifie que Chatbot Arena sélectionne lui-même deux modèles et, sans révéler leurs noms, vous permet de les comparer. L'utilisateur de la plateforme de Chatbot Arena peut saisir n'importe quelle question dans le formulaire du site pour voir côte à côte les réponses de deux modèles sélectionnés au hasard. L'identité de chaque modèle est initialement cachée, et les résultats sont annulés si l'un ou l'autre des modèles sélectionnés révèle son identité dans la réponse elle-même.

L'utilisateur doit ensuite choisir le modèle qui a fourni ce qu'il juge être la "meilleur" réponse, avec des options supplémentaires pour une "égalité" ou "les deux sont mauvais". Ce n'est qu'après avoir fourni un classement par paire que l'utilisateur peut découvrir les modèles qu'il a notés. (Une section distincte du site permet aux utilisateurs de choisir deux modèles spécifiques à comparer, sans possibilité de contribuer au vote sur le résultat.) Depuis son lancement public en mai dernier, LMSYS affirme avoir recueilli plus de 130 000 évaluations par paires à l'aveugle pour 45 modèles différents (début décembre). L'équipe en a dégagé quelques conclusions.

Les évaluations par paires des utilisateurs de Chatbot Arena sont analysées à l'aide d'un modèle probabiliste Bradley-Terry. Celui-ci utilise l'échantillonnage aléatoire pour générer une évaluation de type Elo, estimant quel modèle est le plus susceptible de gagner dans une compétition directe contre n'importe quel autre. En outre, les personnes intéressées peuvent également consulter les données brutes de dizaines de milliers d'évaluations humaines de type prompt/réponse ou examiner des statistiques plus détaillées, telles que les taux de victoire directe par paire entre les modèles et les intervalles de confiance pour ces estimations Elo.

La dernière mise à jour du classement de Chatbot Arena révèle que quelques modèles propriétaires battent facilement une large gamme d'alternatives open source. Le modèle GPT-4 Turbo d'OpenAI est largement en tête et seul l'ancien modèle GPT-4 v0314 (abandonné en juin) le talonne. Mais même les versions défuntes de GPT-3.5 Turbo, vieilles de plusieurs mois, dépassent les modèles open source les mieux notés disponibles dans le banc d'essai de Chatbot Arena. Les différents modèles Claude d'Anthropic figurent également en bonne place dans les classements de Chatbot Arena. L'ancien modèle Claude-1 semble faire mieux que Claude-2.0 et Claude-2.1.

Parmi les modèles open source testés, Tulu 2, basé sur le modèle Llama de Meta, et Yi, de 01.ai, obtiennent des classements comparables à certaines implémentations plus anciennes de GPT-3.5. Après cela, il y a un déclin lent, mais régulier jusqu'à ce que vous arriviez à des modèles comme Dolly et StableLM en queue de peloton (au milieu d'anciennes versions de nombreux modèles qui ont des mises à jour plus récentes et mieux classées sur les tableaux de Chatbot Arena). Cependant, la méthode d'évaluation utilisée par la plateforme Chatbot Arena est controversée par certains critiques. Ces derniers affirment que la méthode comporte certaines lacunes.

Par exemple, selon les critiques, les humains peuvent être mal équipés pour classer avec précision les réponses des chatbots qui semblent plausibles, mais qui cachent des hallucinations nuisibles d'informations incorrectes. Sans le savoir, les utilisateurs de Chatbot Arena peuvent également naturellement s'orienter vers certains types d'invites qui favorisent certains types de modèles. L'analyse assistée par modèle des invites soumises par les utilisateurs de la plateforme révèle que les demandes de jeux de rôles professionnels, d'écriture d'histoires et d'"exploration de dilemmes éthiques et de normes sociétales" figurent parmi les catégories les plus populaires.

Pour contrebalancer les biais humains potentiels, LMSYS a développé un système de classement entièrement automatisé appelé LLM Judge, qui utilise les modèles LLM eux-mêmes pour classer la qualité des réponses d'autres LLM avec un score "MT-Bench". Ces classements sont également comparés à une évaluation MMLU (Massive Multitask Language Understanding) standardisée, qui classe les modèles sur une variété de tâches communes. L'article académique de LMSYS sur le sujet constate que "les juges LLM forts comme GPT-4 peuvent bien correspondre aux préférences humaines collectées auprès de la communauté, atteignant plus de 80 % d'accord.

Il s'agit du même niveau d'accord entre les humains. À partir de ces résultats, LMSYS suggère que le fait de demander à des modèles de classer d'autres modèles est "un moyen évolutif et explicable d'approximer les préférences humaines, qui sont par ailleurs très coûteuses à obtenir". La comparaison des différentes méthodes de classement sur les tableaux de classement de Chatbot Arena révèle des classements largement similaires. MT-Bench classe le modèle Starling de l'UC Berkeley comme meilleur que certaines versions de ChatGPT et Claude, tandis que les tests de MMLU classent le modèle Yi aux côtés des meilleurs modèles propriétaires.

Enfin, LMSYS promet que les classements en temps réel seront bientôt mis à jour, mais les classements actuels ne tiennent compte que des modèles ajoutés le mois dernier. Plus récemment, LMSYS a révélé dans un message sur les médias sociaux que le nouveau modèle open source Mixtral 8x7B a obtenu de bons résultats lors des premiers essais en aveugle. Toutefois, ses performances sont encore loin des performances des modèles propriétaires. Il serait toutefois intéressant de voir prochainement la façon dont les nouveaux modèles comme Gemini de Google ou même Grok d'Elon Musk se comporteront dans une future concurrence directe.

Source : Chatbot Arena

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des résultats des évaluations sur Chatbot Arena ?

Que pensez-vous de la méthode utilisée pour évaluer les modèles de langage ?

Voir aussi

Enjeux et avantages de l'IA générale : Sam Altman, PDG d'OpenAI, appel au changement de gouvernance, pour éviter la concentration du contrôle

Grok, le rival de ChatGPT d'Elon Musk, est en train d'être déployé pour les utilisateurs de X Premium, mais le côté "audacieux et rebelle" du chatbot suscite des réactions mitigées

Enjeux et avantages de l'IA générale : Sam Altman, PDG d'OpenAI, appel au changement de gouvernance pour éviter la concentration du contrôle

Vous avez lu gratuitement 34 876 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source,

Mais la méthode d'évaluation est controversée

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, Mais la méthode d'évaluation est controversée

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source,

Mais la méthode d'évaluation est controversée