
Lors de la sortie de Llama 4 Maverick, Meta a annoncé que le modèle a obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents système. Les résultats le place au-dessus du score du modèle 4o d'OpenAI et juste en dessous de Gemini 2.5 Pro. Mais un nouveau rapport montre que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.
Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. D'après les résultats des tests de référence, Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) est arrivé en deuxième position, battant des modèles tels que GPT-4o d'OpenAI et Gemini 2.0 Flash de Google, et n'étant devancé que par Gemini 2.5 Pro.
Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.
Les utilisateurs ont remarqué des différences de comportement entre le Maverick utilisé dans les benchmarks et celui mis à la disposition du public. Cela a conduit à des accusations de tricherie de la part de Meta, ce qui a suscité une réponse d'un cadre de Meta sur X. LMArena a également reconnu que Meta n'avait pas respecté ses politiques, s'est excusé auprès du public et a publié une mise à jour de ses politiques.
La communauté nous a posé des questions sur la dernière version du Llama-4 sur Arena. Pour garantir une transparence totale, nous publions plus de 2 000 résultats de comparaison en tête-à-tête afin qu'ils soient examinés par le public. Ces résultats incluent les invites des utilisateurs, les réponses des modèles et les préférences des utilisateurs.
Les premières analyses montrent que le style et le ton de la réponse du modèle sont des facteurs importants (comme le montre le classement du contrôle du style), et nous menons une analyse plus approfondie pour en savoir plus ! (Emoji control ?)
En outre, nous ajoutons la version HF de Llama-4-Maverick à Arena, et les résultats du classement seront publiés prochainement. L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter que ce genre de confusion ne se reproduise à l'avenir.
Les premières analyses montrent que le style et le ton de la réponse du modèle sont des facteurs importants (comme le montre le classement du contrôle du style), et nous menons une analyse plus approfondie pour en savoir plus ! (Emoji control ?)
En outre, nous ajoutons la version HF de Llama-4-Maverick à Arena, et les résultats du classement seront publiés prochainement. L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter que ce genre de confusion ne se reproduise à l'avenir.
Aujourd'hui, la version non modifiée du modèle (Llama-4-Maverick-17B-128E-Instruct) a été ajoutée à LMArena et se classe à la 32e place. Pour mémoire, des modèles plus anciens comme Claude 3.5 Sonnet, sorti en juin dernier, et Gemini-1.5-Pro-002, sorti en septembre dernier, sont mieux classés.
Un porte-parole de Meta a indiqué que le Llama-4-Maverick-03-26-Experimental a été spécialement réglé pour le chat et qu'il s'est plutôt bien comporté dans les tests de LMArena, ajoutant que la société est "impatiente" de voir ce que les développeurs construiront maintenant qu'une version open source du Llama 4 a été publiée.
Fait intéressant, après la sortie de Llama 4, Meta avait annoncé qu'il s'efforce de remédier aux polémiques liées à une IA politiquement correcte et partiale. Meta s'inquiète spécifiquement du fait que Llama 4 a des préjugés politiques de gauche. Meta a déclaré que son objectif est d'éliminer les préjugés de ses modèles d'IA et de faire en sorte qu'ils correspondent aux utilisateurs des deux bords.
Cette déclaration de Meta rappelle celle d'Elon Musk qui a qualifié Grok d'audacieux en raison de son approche volontairement provocante et non conventionnelle dans le domaine de l'IA. Contrairement aux modèles plus prudents comme ChatGPT ou Gemini, Grok est conçu pour adopter un ton plus irrévérencieux, traiter des sujets sensibles et proposer des modes d'interaction atypiques. À titre d'exemple, Grok peut aborder tout type de sujet dans un registre excentrique, y compris les questions politiques.
Source : LMArena
Et vous ?


Voir aussi :




Vous avez lu gratuitement 5 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.