IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289,
Surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Le , par Mathis Lucas

24PARTAGES

5  0 
Une mise à jour de l'index LMSYS Chatbot Arena montre que le leader du classement est le tout nouveau modèle d'IA GPT-4o publié lundi par OpenAI. Le classement indique que GPT-4o a obtenu le score Elo documenté le plus élevé jamais obtenu, soit 1 289. Il surpasse ainsi les toutes dernières versions de GPT-4-Turbo, GPT-4, Gemini 1.5 Pro et Claude 3 Opus. Ce résultat permet à OpenAI de reprendre la tête de la course à l'IA la plus performante en attendant la publication de son grand modèle de langage (LLM) tant attendu GPT-5. Le classement révèle également que les scores sont très serrés, signe que les entreprises d'IA se livrent une concurrence acharnée.

LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs différents moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.

Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle. La dernière mise à jour de l'index suggère qu'OpenAI reprend sa position de leader sur le marché de l'IA avec son dernier modèle d'IA GPT-4o, dont les performances semblent surpasser celles de ces concurrents. GPT-4o arrive en tête du classement avec un score Elo de 1 289, soit le score le plus élevé jamais attribué par Chatbot Arena.


« GPT-4o est notre nouveau modèle frontière à la pointe de la technologie. Nous avons testé une version sur l'arène LMSys sous le nom de im-also-a-good-gpt2-chatbot », a écrit dans un billet sur X (ex-Twitter) William Fedus, employé d'OpenAI. GPT-4o est suivi par GPT-4-Turbo-2024-04-09 (avec un score Elo de 1 252), GPT-4-1106-preview (1 250), Gemini 1.5 Pro API-0409-Preview (1 248), Claude 3 Opus (1 246), GPT-4-0125-preview (1 244), et bien d'autres encore. (Notons que les cinq premiers poursuivants du leader du classement se talonnent avec un écart de seulement deux points entre les différents scores Elo.)

Avec le lancement de GPT-4o, OpenAI reprend le devant sur Anthropic, dont le modèle Claude 3 Opus publié en mars surpassait les performances des modèles les plus performants de Google et OpenAI. Une mise à jour de l'index LMSYS Chatbot Arena indiquait à l'époque que Claude 3 Opus occupait la première place avec un score Elo de 1253. (Il a perdu 5 points depuis.) Il était suivi par deux modèles GPT-4 de prévisualisation, avec des scores respectifs de 1251 et 1248. Gemini Pro de Google occupait la 4e place du classement, avec des performances qui étaient légèrement supérieures à celles de Claude 3 Sonnet (1198 points).

Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude l'ont rapidement dépassé grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.



GPT-4o est le dernier grand modèle de langage d'OpenAI. Le "o" de GPT-4o signifie "omni", c'est-à-dire "tout" en latin, en référence au fait que le modèle prend en charge des invites composées d'un mélange de texte, d'audio, d'images et de vidéo. Auparavant, l'interface ChatGPT utilisait des modèles distincts pour les différents types de contenu. Par exemple, lorsque vous envoyez une commande vocale à ChatGPT, elle était convertie en texte à l'aide de Whisper, une réponse textuelle était générée à l'aide de GPT-4 Turbo, et cette réponse textuelle était convertie en discours à l'aide d'un modèle "text-to-speech" (TTS) d'OpenAI.

De même, le travail avec les images dans ChatGPT a nécessité un mélange de GPT-4 Turbo et de DALL-E 3. L'approche du modèle tout-en-un signifie que GPT-4o surmonte plusieurs limitations des capacités d'interaction vocale précédentes. Le fait de disposer d'un modèle unique capable de traiter tous les types de médias permet d'améliorer la vitesse et de la qualité des réponses, de proposer une interface plus simple et de nouveaux cas d'utilisation. Selon OpenAI, ces avancées ont permis à GPT-4o d'obtenir de meilleurs scores sur les différents benchmarks par rapport à Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic.

Le nouveau classement de LMSYS Chatbot Arena montre que les mises à jour successives dont ont bénéficié GPT-4 Turbo et Gemini Pro 1.5 ont permis à ces modèles de surpasser (même si le score semble insignifiant) Claude 3 Opus. Google a présenté les nouvelles améliorations apportées à Gemini Pro 1.5 lors de son événement Google I/O cette semaine. En février, Google avait étendu la fenêtre contextuelle de Gemini 1.5 Pro à un million de jetons, soit le plus grand sur le marché. Le mois dernier, l'entreprise a ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.


Les modèles d'IA open source ne sont pas en reste. Les benchmarks suggèrent que les modèles open source comblent l'écart avec les modèles propriétaires. Une étude comparative publiée au début de l'année avait révélé que la startup française Mistral AI talonnait de très près les géants de la Silicon Valley. Les résultats de l'étude suggéraient que Mistral 8x7B était le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/08/2024 à 12:20
Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.
1  0 
Avatar de noremorse
Membre actif https://www.developpez.com
Le 24/02/2025 à 9:12
J’imagine que chatgpt et autres IA utilisent les infos provenant de la presse mainstream financée par l’état ainsi que Wikipedia pour faire sa propagande occidentale
1  0 
Avatar de Eye_Py_Ros
Membre régulier https://www.developpez.com
Le 21/05/2024 à 13:49
concernant le mauvais coté de l'IA. Nous risquons une crise identitaire.
La réplication, l'imitation en masse et le non respect de nos identités, risque de mettre à mal la société, une "crise de l'identité" ou les personnes seraient de moins en moins respecté.
Et dont le capitalisme userait, serait plus "violent" en ne respectant plus l'individu car copiable grâce à un genre de photocopieuse magique.
0  0 
Avatar de marsupial
Expert éminent https://www.developpez.com
Le 26/05/2024 à 15:09
Mon commentaire sera peut-être hors-sujet mais Open AI comme Copilot de MS a pompé des données pour retenir des idées, des codes sources, des puces de nouvelles générations et s'est affranchi des lois sur le copyright et les brevets matériels et logiciels au détriment des utilisateurs et professionnels. Je confirme donc qu'ils sont attaquables en procès pour le cas de Scarlett Johansson qui a vu sa voix devenir un fake pour les utilisateurs : Au minimum Open AI et MS ne respectent rien, pas même leur propres règles et leur propre parole. Peut-être Google aussi mais j'ai plus confiance en Google qu'en MS et Open AI bien qu'il faille toujours se méfier.
0  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 03/08/2024 à 7:19
Là c'est un autre level sur l'impact sociétal possible...
0  0 
Avatar de Chouteau
Membre régulier https://www.developpez.com
Le 05/08/2024 à 13:24
Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
Et que dire d'un robot qui rigole...
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 21/10/2024 à 11:02
Elle doit gérer les tensions entre sa mission déclarée, qui est de veiller à ce que l'intelligence artificielle générale profite à l'humanité, et son orientation de plus en plus commerciale.


C'est comme l'infomercial de Bill Gates sur les IPN, le loup déguisé en agneau.

Alors que le ChatGPT s'intègre de plus en plus profondément dans le travail et la vie de tous les jours
Dans la tête des PDG peut-être...
0  0