LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs différents moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.
Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle. La dernière mise à jour de l'index suggère qu'OpenAI reprend sa position de leader sur le marché de l'IA avec son dernier modèle d'IA GPT-4o, dont les performances semblent surpasser celles de ces concurrents. GPT-4o arrive en tête du classement avec un score Elo de 1 289, soit le score le plus élevé jamais attribué par Chatbot Arena.
« GPT-4o est notre nouveau modèle frontière à la pointe de la technologie. Nous avons testé une version sur l'arène LMSys sous le nom de im-also-a-good-gpt2-chatbot », a écrit dans un billet sur X (ex-Twitter) William Fedus, employé d'OpenAI. GPT-4o est suivi par GPT-4-Turbo-2024-04-09 (avec un score Elo de 1 252), GPT-4-1106-preview (1 250), Gemini 1.5 Pro API-0409-Preview (1 248), Claude 3 Opus (1 246), GPT-4-0125-preview (1 244), et bien d'autres encore. (Notons que les cinq premiers poursuivants du leader du classement se talonnent avec un écart de seulement deux points entre les différents scores Elo.)
Avec le lancement de GPT-4o, OpenAI reprend le devant sur Anthropic, dont le modèle Claude 3 Opus publié en mars surpassait les performances des modèles les plus performants de Google et OpenAI. Une mise à jour de l'index LMSYS Chatbot Arena indiquait à l'époque que Claude 3 Opus occupait la première place avec un score Elo de 1253. (Il a perdu 5 points depuis.) Il était suivi par deux modèles GPT-4 de prévisualisation, avec des scores respectifs de 1251 et 1248. Gemini Pro de Google occupait la 4e place du classement, avec des performances qui étaient légèrement supérieures à celles de Claude 3 Sonnet (1198 points).
Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude l'ont rapidement dépassé grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.
GPT-4o est le dernier grand modèle de langage d'OpenAI. Le "o" de GPT-4o signifie "omni", c'est-à-dire "tout" en latin, en référence au fait que le modèle prend en charge des invites composées d'un mélange de texte, d'audio, d'images et de vidéo. Auparavant, l'interface ChatGPT utilisait des modèles distincts pour les différents types de contenu. Par exemple, lorsque vous envoyez une commande vocale à ChatGPT, elle était convertie en texte à l'aide de Whisper, une réponse textuelle était générée à l'aide de GPT-4 Turbo, et cette réponse textuelle était convertie en discours à l'aide d'un modèle "text-to-speech" (TTS) d'OpenAI.GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024
De même, le travail avec les images dans ChatGPT a nécessité un mélange de GPT-4 Turbo et de DALL-E 3. L'approche du modèle tout-en-un signifie que GPT-4o surmonte plusieurs limitations des capacités d'interaction vocale précédentes. Le fait de disposer d'un modèle unique capable de traiter tous les types de médias permet d'améliorer la vitesse et de la qualité des réponses, de proposer une interface plus simple et de nouveaux cas d'utilisation. Selon OpenAI, ces avancées ont permis à GPT-4o d'obtenir de meilleurs scores sur les différents benchmarks par rapport à Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic.
Le nouveau classement de LMSYS Chatbot Arena montre que les mises à jour successives dont ont bénéficié GPT-4 Turbo et Gemini Pro 1.5 ont permis à ces modèles de surpasser (même si le score semble insignifiant) Claude 3 Opus. Google a présenté les nouvelles améliorations apportées à Gemini Pro 1.5 lors de son événement Google I/O cette semaine. En février, Google avait étendu la fenêtre contextuelle de Gemini 1.5 Pro à un million de jetons, soit le plus grand sur le marché. Le mois dernier, l'entreprise a ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.
Les modèles d'IA open source ne sont pas en reste. Les benchmarks suggèrent que les modèles open source comblent l'écart avec les modèles propriétaires. Une étude comparative publiée au début de l'année avait révélé que la startup française Mistral AI talonnait de très près les géants de la Silicon Valley. Les résultats de l'étude suggéraient que Mistral 8x7B était le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo et Claude 3 Opus fournissaient des réponses de meilleure qualité. Dans l'ensemble, le rapport indiquait que Mixtral 8x7B semblait faire mieux que Gemini Pro lors des différents tests.
En somme, l'index LMSYS Chatbot Arena offre un aperçu de l'état actuel de l'IA, soulignant les performances des différents modèles. Alors que les chercheurs continuent à repousser les limites de ce qui est possible avec les modèles, ces benchmarks fournissent un outil précieux pour suivre les progrès et identifier les approches les plus prometteuses. Compte tenu du rythme rapide de l'innovation dans ce domaine, il sera passionnant de voir comment ces modèles évoluent et les nouvelles percées qui seront réalisées dans un avenir proche. Par exemple, OpenAI se prépare activement à la sortie de son prochain modèle, GPT-5.
Par ailleurs, il faut noter que l'index LMSYS Chatbot Arena fait l'objet de controverses. Certains critiques estiment qu'il ne reflète pas la réalité. L'un d'entre eux a écrit : « je trouve que LMSYS Chatbot Arena est bien plus un test décisif pour les cas d'utilisation et les préférences de masse qu'une compréhension décente des capacités réelles d'un modèle. Je m'interroge également sur l'honnêteté du processus, notamment sur la manière dont ils vérifient les votes. Mais on peut dire la même chose des benchmarks, car nous savons tous que toutes les entreprises, sans exception, ont tendance à gonfler un peu les choses ».
La concurrence entre Mistral AI, Anthropic, OpenAI, Google, etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.
Source : LMSYS Chatbot Arena
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du score obtenu par GPT-4o sur LMSYS Chatbot Arena ?
Que pensez-vous du faible écart entre les scores des premiers du classement ? Cela reflète-t-il la réalité ?
Que pensez-vous de la méthodologie de Chatbot Arena ? Que signifient ces résultats pour le secteur de l'IA ?
Voir aussi
Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4, ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5
Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel
Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur