LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs plusieurs moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.
Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle :
- Claude 3 Opus a obtenu un score impressionnant de +5/-5 dans ses défis, accumulant 33 250 votes au total ;
- les modèles GPT-4 de prévisualisation ont obtenu des résultats de +4/-4 avec 54 141 et 34 825 votes, respectivement ;
- Claude 3 Sonnet a également réalisé une bonne performance, avec un score de +5/-5 lors des comparaisons et 32 761 votes ;
- Claude 3 Haiku a obtenu un score de +5/-5 lors des tests et 18 776 votes. Il égale presque les performances de l'ancien GPT-4-0314.
« Anthropic est maintenant le leader et possède le meilleur modèle d'IA au monde ! Et je suis sûr qu'ils sont déjà en train de développer Claude 4 », a écrit un critique. Selon d'autres critiques, GPT-4-Turbo est devenu très "paresseux". « Sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". Mais Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) », note un commentaire.
Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude le dépassent aujourd'hui grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.
Pour rappel, Anthropic, un acteur relativement nouveau dans la course à l'IA, a lancé au début du mois son nouveau modèle Claude 3, un puissant modèle de langage disponible en trois tailles différentes : Haiku (le plus petit), Sonnet (de taille moyenne) et Opus (le plus grand). Claude 3 offre une meilleure compréhension du contexte que ses prédécesseurs, ce qui permet de réduire le nombre de refus. Selon Anthropic, la variante Claude 3 Opus rivalise avec GPT-4, voire le surpasse, si l'on considère les performances obtenues dans le cadre de divers tests de référence. Le classement ci-dessus vient confirmer cette déclaration.
Anthropic a cité des scores de référence pour étayer son affirmation selon laquelle le modèle Claude 3 Opus est plus performant que le GPT-4. Par exemple, sur le benchmark GSM8K, qui évalue les modèles de langage sur leur capacité à comprendre et à raisonner sur le langage naturel, le modèle Claude 3 Opus a nettement surpassé GPT-4, obtenant un score de 95,0 % contre 92,0 % pour GPT-4. Toutefois il est important de noter que cette comparaison a été faite avec le modèle GPT-4 par défaut, et non avec la variante avancée GPT-4 Turbo. Lorsque GPT-4 Turbo est pris en compte pour le test, les choses changent légèrement.
Sur le même benchmark GSM8K, GPT-4 Turbo a obtenu un score de 95,3 %, devançant le modèle Claude 3 Opus. Tout comme le GPT-4V, le Claude 3 est également doté d'un support Vision et crée des points de référence pour la compréhension multilingue, le raisonnement, etc. L'un des domaines dans lesquels le GPT-4 présente un avantage certain est sa capacité à traiter un large éventail de formats d'entrée et de sortie. GPT-4 prend en charge divers formats de données, y compris les entrées textuelles, codées, visuelles et audio. Il génère des sorties précises en comprenant et en combinant ces diverses informations.
En outre, la variante GPT-4V peut produire des images nouvelles et distinctives en analysant des invites textuelles ou visuelles, ce qui en fait un outil polyvalent pour les professionnels dans les domaines nécessitant la création de contenu visuel. En revanche, Claude 3 est limité au traitement d'entrées textuelles et visuelles, et ne produit que des sorties textuelles. Il peut extraire des informations d'images et lire des graphiques et des tableaux, mais il ne peut pas produire de sorties visuelles comme GPT-4V. Bien qu'il soit plus avancé que GPT-3.5, Claude 3 Sonnet semble moins performant que GPT-4 en matière de capacités globales.
En somme, l'étude de LMSYS offre un aperçu de l'état actuel de l'IA, soulignant la grande performance des modèles Claude d'Anthropic et GPT-4 d'OpenAI. Alors que les chercheurs continuent à repousser les limites de ce qui est possible avec les LLM, ces benchmarks fournissent un outil précieux pour suivre les progrès et identifier les approches les plus prometteuses. Compte tenu du rythme rapide de l'innovation dans ce domaine, il sera passionnant de voir comment ces modèles continuent d'évoluer et quelles nouvelles percées seront réalisées dans un avenir proche. Par exemple, OpenAI prépare la sortie de son modèle GPT-5.
La concurrence entre Mistral AI, Anthropic, OpenAI, Google etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.
Source : Chat Arena
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des résultats des tests réalisés par Chatbot Arena ?
Selon vous, OpenAI pourra-t-il reprendre sa place de leader après le lancement de GPT-5 ?
Que pensez-vous de la méthodologie de Chatbot Arena ? Que signifient ces résultats pour le secteur de l'IA ?
Voir aussi
Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite, ces résultats accentuent la pression sur OpenAI
Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse en attribuant le podium à ChatGPT 4 et à deux versions du chatbot Claude d'Anthropic
Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée