Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.Llama (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) open source développés par Meta AI à partir de février 2023. Meta a développé Llama en réponse à modèle ChatGPT d'OpenAI, qui a lancé la course à l'IA générative. Dans un billet de blogue publié le 5 avril, Meta a annoncé la sortie de Llama 4, affirmant que cette nouvelle version comprend des modèles avancés qui écrasent la concurrence dans tous les domaines.
Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, serait le meilleur modèle multimodal au monde dans sa catégorie, tout en tenant dans un seul GPU Nvidia H100. Selon Meta, « Scout peut battre GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks populaires ».
Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, offrirait le meilleur rapport performance/coût de sa catégorie. Il a rapidement obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents systèmes et votent pour le meilleur d'entre eux. Maverick a obtenu un score ELO de 1417, qui le place au-dessus du GPT-4o d'OpenAI, mais juste en dessous de Gemini 2.5 Pro.
Meta accusé d'avoir triché lors du processus d'évaluation du modèle Maverick
Cette réussite semblait positionner Llama 4 comme un concurrent de taille des modèles propriétaires d'OpenAI, d'Anthropic et de Google. C'est alors que des chercheurs en IA, en fouillant dans la documentation de Meta, ont découvert quelque chose d'inhabituel qui remet en cause les revendications de Meta. En petits caractères, la société reconnaît que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.
Meta a déployé sur LMArena une version expérimentale de Maverick qui a été spécifiquement « optimisée pour la conversation ». La société a omis de préciser ce détail lors de la publication du modèle, ce qui a rendu furieux les chercheurs en IA. Les administrateurs de LMArena ont déclaré sur X (ex-Twitter) :
We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) April 8, 2025
Early…
Un porte-parole de Meta, Ashley Gabriel, a déclaré que « l'entreprise expérimente tous les types de variantes personnalisées ». Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est une version optimisée pour le chat que nous avons expérimentée et qui fonctionne bien sur LMArena. Nous avons maintenant publié notre version open source et nous allons voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d'utilisation ».
Scout et Maverick sont les meilleurs à ce jour grâce à la distillation du dernier modèle de la famille Llama 4 : Behemoth. Llama 4 Behemoth est un modèle de 288 milliards de paramètres actifs avec 16 experts ; c'est le modèle le plus puissant de Meta à ce jour. « Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en étant plus performants que des modèles de taille beaucoup plus importante », note Meta.
Le comportement de Meta remet davantage en cause la fiabilité des benchmarks
LMArena a fait part de ses inquiétudes quant à l'utilisation abusive du système par Meta. Lorsque les fournisseurs de modèles peuvent soumettre des versions optimisées de leurs modèles à des fins de test tout en diffusant des versions différentes au public, les classements de référence tels que LMArena perdent de leur sens en tant qu'indicateurs de la performance dans le monde réel. Le comportement ne viole pas explicitement les règles de la plateforme.
Toutefois, LMArena a déclaré avoir pris des mesures pour « empêcher ce type d'ajustement excessif à l'avenir ». Simon Willison, chercheur indépendant en IA, se dit désillusionné : « c'est l'indice de référence général le plus respecté parce que tous les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.