IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4,
Ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5

Le , par Mathis Lucas

32PARTAGES

4  0 
Une nouvelle évaluation des chatbots d'IA les plus populaires réalisée par la plateforme LMSYS suggère que Claude 3 d'Anthropic surpasse GPT-4 d'OpenAI. Les résultats des tests montrent que Claude 3 Opus occupe la première place avec un score Elo de 1253. Deux récents modèles GPT-4 de prévisualisation le suivent de près, avec des notes respectives de 1251 et 1248. Gemini Pro de Google occupe la quatrième place du classement, avec des performances qui sont légèrement supérieures à celles de Claude 3 Sonnet (1198 points). Les résultats montrent que l'étau se resserre autour d'OpenAI, dont l'industrie attend impatiemment qu'il publie son modèle GPT-5.

LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs plusieurs moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.


Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle :

  • Claude 3 Opus a obtenu un score impressionnant de +5/-5 dans ses défis, accumulant 33 250 votes au total ;
  • les modèles GPT-4 de prévisualisation ont obtenu des résultats de +4/-4 avec 54 141 et 34 825 votes, respectivement ;
  • Claude 3 Sonnet a également réalisé une bonne performance, avec un score de +5/-5 lors des comparaisons et 32 761 votes ;
  • Claude 3 Haiku a obtenu un score de +5/-5 lors des tests et 18 776 votes. Il égale presque les performances de l'ancien GPT-4-0314.


« Anthropic est maintenant le leader et possède le meilleur modèle d'IA au monde ! Et je suis sûr qu'ils sont déjà en train de développer Claude 4 », a écrit un critique. Selon d'autres critiques, GPT-4-Turbo est devenu très "paresseux". « Sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". Mais Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) », note un commentaire.

Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude le dépassent aujourd'hui grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.

Pour rappel, Anthropic, un acteur relativement nouveau dans la course à l'IA, a lancé au début du mois son nouveau modèle Claude 3, un puissant modèle de langage disponible en trois tailles différentes : Haiku (le plus petit), Sonnet (de taille moyenne) et Opus (le plus grand). Claude 3 offre une meilleure compréhension du contexte que ses prédécesseurs, ce qui permet de réduire le nombre de refus. Selon Anthropic, la variante Claude 3 Opus rivalise avec GPT-4, voire le surpasse, si l'on considère les performances obtenues dans le cadre de divers tests de référence. Le classement ci-dessus vient confirmer cette déclaration.

Anthropic a cité des scores de référence pour étayer son affirmation selon laquelle le modèle Claude 3 Opus est plus performant que le GPT-4. Par exemple, sur le benchmark GSM8K, qui évalue les modèles de langage sur leur capacité à comprendre et à raisonner sur le langage naturel, le modèle Claude 3 Opus a nettement surpassé GPT-4, obtenant un score de 95,0 % contre 92,0 % pour GPT-4. Toutefois il est important de noter que cette comparaison a été faite avec le modèle GPT-4 par défaut, et non avec la variante avancée GPT-4 Turbo. Lorsque GPT-4 Turbo est pris en compte pour le test, les choses changent légèrement.

Sur le même benchmark GSM8K, GPT-4 Turbo a obtenu un score de 95,3 %, devançant le modèle Claude 3 Opus. Tout comme le GPT-4V, le Claude 3 est également doté d'un support Vision et crée des points de référence pour la compréhension multilingue, le raisonnement, etc. L'un des domaines dans lesquels le GPT-4 présente un avantage certain est sa capacité à traiter un large éventail de formats d'entrée et de sortie. GPT-4 prend en charge divers formats de données, y compris les entrées textuelles, codées, visuelles et audio. Il génère des sorties précises en comprenant et en combinant ces diverses informations.

En outre, la variante GPT-4V peut produire des images nouvelles et distinctives en analysant des invites textuelles ou visuelles, ce qui en fait un outil polyvalent pour les professionnels dans les domaines nécessitant la création de contenu visuel. En revanche, Claude 3 est limité au traitement d'entrées textuelles et visuelles, et ne produit que des sorties textuelles. Il peut extraire des informations d'images et lire des graphiques et des tableaux, mais il ne peut pas produire de sorties visuelles comme GPT-4V. Bien qu'il soit plus avancé que GPT-3.5, Claude 3 Sonnet semble moins performant que GPT-4 en matière de capacités globales.

En somme, l'étude de LMSYS offre un aperçu de l'état actuel de l'IA, soulignant la grande performance des modèles Claude d'Anthropic et GPT-4 d'OpenAI. Alors que les chercheurs continuent à repousser les limites de ce qui est possible avec les LLM, ces benchmarks fournissent un outil précieux pour suivre les progrès et identifier les approches les plus prometteuses. Compte tenu du rythme rapide de l'innovation dans ce domaine, il sera passionnant de voir comment ces modèles continuent d'évoluer et quelles nouvelles percées seront réalisées dans un avenir proche. Par exemple, OpenAI prépare la sortie de son modèle GPT-5.

La concurrence entre Mistral AI, Anthropic, OpenAI, Google etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.

Source : Chat Arena

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des résultats des tests réalisés par Chatbot Arena ?
Selon vous, OpenAI pourra-t-il reprendre sa place de leader après le lancement de GPT-5 ?
Que pensez-vous de la méthodologie de Chatbot Arena ? Que signifient ces résultats pour le secteur de l'IA ?

Voir aussi

Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite, ces résultats accentuent la pression sur OpenAI

Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse en attribuant le podium à ChatGPT 4 et à deux versions du chatbot Claude d'Anthropic

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 28/03/2024 à 9:25
Selon vous, OpenAI pourra-t-il reprendre sa place de leader après le lancement de GPT-5 ?

C'est impossible à dire.
Pour moi l'avantage d'OpenAI est la puissance des moyens financiers qui soutiennent la structure, ce qui lui a permis de se diversifier (génération d'images, de vidéos, vision, gestion de la voix, API étendue pour les appels de fonctions, création d'agents, etc...)
Si d'autres entreprises ont rattrapé OpenAI sur la partie modèle de langage, elle ne proposent généralement rien sur les autres types d'application, ce qui est une lacune.

Malgré tout ça fait plaisir de voir GPT-4 tomber de son piédestal.
Espérons que Mistral parvienne également à monter d'un cran.
1  0 
Avatar de SuperPat
Membre du Club https://www.developpez.com
Le 28/03/2024 à 10:43
Je remarque aussi que le modèle opensource Starling-LM-7B-beta est passé Ã* la première place des modèles open sources devant Mixtral-8x7b-Instruct-v0.1

Starling dépasse GPT 3.5 et est une version fine-tuné du modèle Openchat-3.5 lui-même basé sur Mistral-7B
1  0