Après les allégations de tricherie de Meta, le modèle 'non modifié' Llama 4 Maverick testé ne se classe que 32ème

Et ne bat absolument pas GPT-4o et Gemini Flash 2 comme l'a déclaré Mark Zuckerberg

Le 14 avril 2025 à 13:02, par Jade Emy

37PARTAGES

Après les allégations de tricherie de Meta, le modèle 'non modifié' Llama 4 Maverick testé ne se classe que 32ème, et ne bat absolument pas GPT-4o et Gemini Flash 2 comme l'a déclaré Mark Zuckerberg

Lors de la sortie de Llama 4 Maverick, Meta a annoncé que le modèle a obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents système. Les résultats le place au-dessus du score du modèle 4o d'OpenAI et juste en dessous de Gemini 2.5 Pro. Mais un nouveau rapport montre que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.

Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. D'après les résultats des tests de référence, Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) est arrivé en deuxième position, battant des modèles tels que GPT-4o d'OpenAI et Gemini 2.0 Flash de Google, et n'étant devancé que par Gemini 2.5 Pro.

Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.

Les utilisateurs ont remarqué des différences de comportement entre le Maverick utilisé dans les benchmarks et celui mis à la disposition du public. Cela a conduit à des accusations de tricherie de la part de Meta, ce qui a suscité une réponse d'un cadre de Meta sur X. LMArena a également reconnu que Meta n'avait pas respecté ses politiques, s'est excusé auprès du public et a publié une mise à jour de ses politiques.

La communauté nous a posé des questions sur la dernière version du Llama-4 sur Arena. Pour garantir une transparence totale, nous publions plus de 2 000 résultats de comparaison en tête-à-tête afin qu'ils soient examinés par le public. Ces résultats incluent les invites des utilisateurs, les réponses des modèles et les préférences des utilisateurs.

Les premières analyses montrent que le style et le ton de la réponse du modèle sont des facteurs importants (comme le montre le classement du contrôle du style), et nous menons une analyse plus approfondie pour en savoir plus ! (Emoji control ?)

En outre, nous ajoutons la version HF de Llama-4-Maverick à Arena, et les résultats du classement seront publiés prochainement. L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter que ce genre de confusion ne se reproduise à l'avenir.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)<br><br>Early…</p>— lmarena.ai (formerly lmsys.org) (@lmarena_ai) <a href="https://twitter.com/lmarena_ai/status/1909397817434816562?ref_src=twsrc%5Etfw">April 8, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]

Aujourd'hui, la version non modifiée du modèle (Llama-4-Maverick-17B-128E-Instruct) a été ajoutée à LMArena et se classe à la 32e place. Pour mémoire, des modèles plus anciens comme Claude 3.5 Sonnet, sorti en juin dernier, et Gemini-1.5-Pro-002, sorti en septembre dernier, sont mieux classés.

Un porte-parole de Meta a indiqué que le Llama-4-Maverick-03-26-Experimental a été spécialement réglé pour le chat et qu'il s'est plutôt bien comporté dans les tests de LMArena, ajoutant que la société est "impatiente" de voir ce que les développeurs construiront maintenant qu'une version open source du Llama 4 a été publiée.

Fait intéressant, après la sortie de Llama 4, Meta avait annoncé qu'il s'efforce de remédier aux polémiques liées à une IA politiquement correcte et partiale. Meta s'inquiète spécifiquement du fait que Llama 4 a des préjugés politiques de gauche. Meta a déclaré que son objectif est d'éliminer les préjugés de ses modèles d'IA et de faire en sorte qu'ils correspondent aux utilisateurs des deux bords.

Cette déclaration de Meta rappelle celle d'Elon Musk qui a qualifié Grok d'audacieux en raison de son approche volontairement provocante et non conventionnelle dans le domaine de l'IA. Contrairement aux modèles plus prudents comme ChatGPT ou Gemini, Grok est conçu pour adopter un ton plus irrévérencieux, traiter des sujets sensibles et proposer des modes d'interaction atypiques. À titre d'exemple, Grok peut aborder tout type de sujet dans un registre excentrique, y compris les questions politiques.

Source : LMArena

Et vous ?

Pensez-vous que ces résultats sont crédibles ou pertinents ?

Quel est votre avis sur le sujet ?

Voir aussi :

Meta lance la famille de modèle Llama 4 : « Le début d'une nouvelle ère d'innovation en matière d'IA nativement multimodale », avec Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth

Anthropic annonce Claude 3.7 Sonnet, un modèle qui donne un contrôle sur le temps que l'IA passe à "réfléchir" avant de générer une réponse, et Claude Code, un agent IA de codage en ligne de commande

Google DeepMind a lancé Gemini 2.5 Pro, un modèle d'IA qui raisonne avant de répondre, affirmant qu'il est le meilleur sur plusieurs critères de référence en matière de raisonnement et de codage

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité, mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

Vous avez lu gratuitement 3 309 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Après les allégations de tricherie de Meta, le modèle 'non modifié' Llama 4 Maverick testé ne se classe que 32ème

Et ne bat absolument pas GPT-4o et Gemini Flash 2 comme l'a déclaré Mark Zuckerberg

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Après les allégations de tricherie de Meta, le modèle 'non modifié' Llama 4 Maverick testé ne se classe que 32ème Et ne bat absolument pas GPT-4o et Gemini Flash 2 comme l'a déclaré Mark Zuckerberg

Après les allégations de tricherie de Meta, le modèle 'non modifié' Llama 4 Maverick testé ne se classe que 32ème

Et ne bat absolument pas GPT-4o et Gemini Flash 2 comme l'a déclaré Mark Zuckerberg