
LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs différents moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.
Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle. La dernière mise à jour de l'index suggère qu'OpenAI reprend sa position de leader sur le marché de l'IA avec son dernier modèle d'IA GPT-4o, dont les performances semblent surpasser celles de ces concurrents. GPT-4o arrive en tête du classement avec un score Elo de 1 289, soit le score le plus élevé jamais attribué par Chatbot Arena.
« GPT-4o est notre nouveau modèle frontière à la pointe de la technologie. Nous avons testé une version sur l'arène LMSys sous le nom de im-also-a-good-gpt2-chatbot », a écrit dans un billet sur X (ex-Twitter) William Fedus, employé d'OpenAI. GPT-4o est suivi par GPT-4-Turbo-2024-04-09 (avec un score Elo de 1 252), GPT-4-1106-preview (1 250), Gemini 1.5 Pro API-0409-Preview (1 248), Claude 3 Opus (1 246), GPT-4-0125-preview (1 244), et bien d'autres encore. (Notons que les cinq premiers poursuivants du leader du classement se talonnent avec un écart de seulement deux points entre les différents scores Elo.)
Avec le lancement de GPT-4o, OpenAI reprend le devant sur Anthropic, dont le modèle Claude 3 Opus publié en mars surpassait les performances des modèles les plus performants de Google et OpenAI. Une mise à jour de l'index LMSYS Chatbot Arena indiquait à l'époque que Claude 3 Opus occupait la première place avec un score Elo de 1253. (Il a perdu 5 points depuis.) Il était suivi par deux modèles GPT-4 de prévisualisation, avec des scores respectifs de 1251 et 1248. Gemini Pro de Google occupait la 4e place du classement, avec des performances qui étaient légèrement supérieures à celles de Claude 3 Sonnet (1198 points).
Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude l'ont rapidement dépassé grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.
GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024
GPT-4o est le dernier grand modèle de langage d'OpenAI. Le "o" de GPT-4o signifie "omni", c'est-à-dire "tout" en latin, en référence au fait que le modèle prend en charge des invites composées d'un mélange de texte, d'audio, d'images et de vidéo. Auparavant, l'interface ChatGPT utilisait des modèles distincts pour les différents types de contenu. Par exemple, lorsque vous envoyez une commande vocale à ChatGPT, elle était convertie en texte à l'aide de Whisper, une réponse textuelle était générée à l'aide de GPT-4 Turbo, et cette réponse textuelle était convertie en discours à l'aide d'un modèle "text-to-speech" (TTS) d'OpenAI.
De même, le travail avec les images dans ChatGPT a nécessité un mélange de GPT-4 Turbo et de DALL-E 3. L'approche du modèle tout-en-un signifie que GPT-4o surmonte plusieurs limitations des capacités d'interaction vocale précédentes. Le fait de disposer d'un modèle unique capable de traiter tous les types de médias permet d'améliorer la vitesse et de la qualité des réponses, de proposer une interface plus simple et de nouveaux cas d'utilisation. Selon OpenAI, ces avancées ont permis à GPT-4o d'obtenir de meilleurs scores sur les différents benchmarks par rapport à Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic.
Le nouveau classement de LMSYS Chatbot Arena montre que les mises à jour successives dont ont bénéficié GPT-4 Turbo et Gemini Pro 1.5 ont permis à ces modèles de surpasser (même si le score semble insignifiant) Claude 3 Opus. Google a présenté les nouvelles améliorations apportées à Gemini Pro 1.5 lors de son événement Google I/O cette semaine. En février, Google avait étendu la fenêtre contextuelle de Gemini 1.5 Pro à un million de jetons, soit le plus grand sur le marché. Le mois dernier, l'entreprise a ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.
Les modèles d'IA open source ne sont pas en reste. Les benchmarks suggèrent que les modèles open source comblent l'écart avec les modèles propriétaires. Une étude comparative publiée au début de l'année avait révélé que la startup française Mistral AI talonnait de très près les géants de la Silicon Valley. Les résultats de l'étude suggéraient que Mistral 8x7B était le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.