Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence,

Ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA

Le 9 avril 2025 à 17:21, par Mathis Lucas

28PARTAGES

Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence
ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA

Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.

Llama (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) open source développés par Meta AI à partir de février 2023. Meta a développé Llama en réponse à modèle ChatGPT d'OpenAI, qui a lancé la course à l'IA générative. Dans un billet de blogue publié le 5 avril, Meta a annoncé la sortie de Llama 4, affirmant que cette nouvelle version comprend des modèles avancés qui écrasent la concurrence dans tous les domaines.

Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, serait le meilleur modèle multimodal au monde dans sa catégorie, tout en tenant dans un seul GPU Nvidia H100. Selon Meta, « Scout peut battre GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks populaires ».

Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, offrirait le meilleur rapport performance/coût de sa catégorie. Il a rapidement obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents systèmes et votent pour le meilleur d'entre eux. Maverick a obtenu un score ELO de 1417, qui le place au-dessus du GPT-4o d'OpenAI, mais juste en dessous de Gemini 2.5 Pro.

Meta accusé d'avoir triché lors du processus d'évaluation du modèle Maverick

Cette réussite semblait positionner Llama 4 comme un concurrent de taille des modèles propriétaires d'OpenAI, d'Anthropic et de Google. C'est alors que des chercheurs en IA, en fouillant dans la documentation de Meta, ont découvert quelque chose d'inhabituel qui remet en cause les revendications de Meta. En petits caractères, la société reconnaît que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.

Meta a déployé sur LMArena une version expérimentale de Maverick qui a été spécifiquement « optimisée pour la conversation ». La société a omis de préciser ce détail lors de la publication du modèle, ce qui a rendu furieux les chercheurs en IA. Les administrateurs de LMArena ont déclaré sur X (ex-Twitter) :

Envoyé par LMArena

L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » est un modèle personnalisé pour optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles afin que cette confusion ne se reproduise plus à l'avenir.

« Le score du modèle de chat était une sorte d'infox... », a écrit un critique sur X. Un autre a souligné : « ils ont utilisé une version expérimentale optimisée pour l'occasion afin de s'assurer le meilleur score, ce qui a permis de soutenir leur battage médiatique. Cela remet en cause la fiabilité des benchmarks ».

We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)

Early…
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) April 8, 2025

Un porte-parole de Meta, Ashley Gabriel, a déclaré que « l'entreprise expérimente tous les types de variantes personnalisées ». Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est une version optimisée pour le chat que nous avons expérimentée et qui fonctionne bien sur LMArena. Nous avons maintenant publié notre version open source et nous allons voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d'utilisation ».

Scout et Maverick sont les meilleurs à ce jour grâce à la distillation du dernier modèle de la famille Llama 4 : Behemoth. Llama 4 Behemoth est un modèle de 288 milliards de paramètres actifs avec 16 experts ; c'est le modèle le plus puissant de Meta à ce jour. « Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en étant plus performants que des modèles de taille beaucoup plus importante », note Meta.

Le comportement de Meta remet davantage en cause la fiabilité des benchmarks

LMArena a fait part de ses inquiétudes quant à l'utilisation abusive du système par Meta. Lorsque les fournisseurs de modèles peuvent soumettre des versions optimisées de leurs modèles à des fins de test tout en diffusant des versions différentes au public, les classements de référence tels que LMArena perdent de leur sens en tant qu'indicateurs de la performance dans le monde réel. Le comportement ne viole pas explicitement les règles de la plateforme.

Toutefois, LMArena a déclaré avoir pris des mesures pour « empêcher ce type d'ajustement excessif à l'avenir ». Simon Willison, chercheur indépendant en IA, se dit désillusionné : « c'est l'indice de référence général le plus respecté parce que tous les autres sont nuls. Lorsque Llama 4 est sorti, le fait qu'il soit arrivé deuxième dans l'arène, juste après Gemini 2.5 Pro, m'a vraiment impressionné, et je m'en veux de ne pas avoir lu les petits caractères ».

Peu après la sortie des modèles Maverick et Scout, la communauté de l'IA a commencé à parler d'une rumeur selon laquelle Meta aurait également entraîné ses modèles Llama 4 pour qu'ils obtiennent de meilleures performances dans les tests de référence, tout en cachant leurs véritables limites.

Ahmad Al-Dahle, vice-président de l'IA générative chez Meta, a répondu à ces accusations dans un billet publié sur X : « nous avons également entendu des affirmations selon lesquelles nous nous sommes entraînés sur des ensembles de tests ; c'est tout simplement faux et nous ne ferions jamais cela. Notre meilleure compréhension est que la qualité variable que les gens constatent est due à la nécessité de stabiliser les implémentations ».

Certains ont également remarqué que le Llama 4 a été publié à une heure étrange. Le samedi n'est généralement pas le jour où les grandes nouveautés en matière d'IA sont publiées. Lorsque quelqu'un a demandé sur Threads pourquoi Llama 4 avait été publié pendant le week-end, Mark Zuckerberg, PDG de Meta, a répondu : « c'est la date à laquelle il était prêt ». Cependant, les chercheurs en IA accusent Meta d'avoir tenté de manipuler le public.

« C'est une publication très déroutante en général. Le score du modèle que nous avons obtenu n'a aucune valeur pour moi. Je ne peux même pas utiliser le modèle pour lequel ils ont obtenu un score élevé », a déclaré le chercheur en IA Simon Willison, qui suit de près et documente les modèles d'IA.

La course à l'IA s'intensifie et transforme les benchmarks en champs de bataille

Alors que le développement de l'IA s'accélère, cet épisode montre comment les benchmarks deviennent des champs de bataille. Il montre également que Meta est désireux d'être perçu comme un leader de l'IA, même si cela implique de jouer avec le système. Le cheminement de Meta vers la sortie de Llama 4 n'a pas été sans heurts. L'entreprise a repoussé le lancement à plusieurs reprises parce que le modèle ne répondait pas aux attentes internes.

@TheXeophon confirmed chat model score was kind of fake news... "experimental chat version" pic.twitter.com/XxeDXwSBHw
— Nathan Lambert (@natolambert) April 6, 2025

Ces attentes sont particulièrement élevées depuis que DeepSeek, une startup chinoise spécialisée dans l'IA, a publié son modèle open source R1 qui a suscité beaucoup d'intérêt. DeepSeek-R1 a égalé les performances du modèle phare o1 d'OpenAI, avec un coût inférieur de 95 %. La startup chinoise a démontré qu'il est possible de développer des modèles d'IA de pointe à faible coût. L'annonce de DeepSeek-R1 a provoqué une hécatombe à Wall Street.

Lors d'une réunion avec le personnel en mars, le PDG de Microsoft, Satya Nadella, a déclaré que DeepSeek est le nouveau critère de réussite de Microsoft en matière d'IA et a érigé en modèle l'approche de la startup chinoise. Microsoft va tirer des leçons de DeepSeek et restructurer son approche en matière d'IA.

En fin de compte, l'utilisation d'un modèle optimisé dans LMArena place les développeurs dans une position difficile. Lorsqu'ils choisissent des modèles tels que Llama 4 pour leurs applications, ils se tournent naturellement vers les références pour obtenir des conseils. Toutefois, comme c'est le cas pour Llama 4 Maverick, ces références peuvent refléter des capacités qui ne sont pas réellement disponibles dans les modèles auxquels le public a accès.

Par ailleurs, soulignons que pour diverses raisons, LMArena n'est pas la mesure la plus fiable des performances d'un modèle d'IA. Mais les entreprises d'IA n'ont généralement pas personnalisé ou affiné leurs modèles pour obtenir de meilleurs résultats sur LMArena ; ou n'ont pas admis l'avoir fait, du moins.

Des préoccupations liées à la consommation d'électricité et d'eau de Meta

En août 2024, Meta avait affirmé qu'il aurait besoin de beaucoup plus de puissance de calcul pour former ses modèles à l'avenir. Le PDG Mark Zuckerberg a déclaré que pour entraîner le Llama 4, l'entreprise aura besoin de 10 fois plus de puissance de calcul que pour l'entraînement du Llama 3. Meta veut faire de Llama 4 le modèle le plus avancé sur le marché, mais selon les experts, l'approche de l'entreprise risque d'avoir un coût colossal pour le climat.

My reaction is that there is an evaluation crisis. I don't really know what metrics to look at right now.
MMLU was a good and useful for a few years but that's long over.
SWE-Bench Verified (real, practical, verified problems) I really like and is great but itself too narrow.…
— Andrej Karpathy (@karpathy) March 2, 2025

Selon un rapport publié en septembre dernier, la consommation d'électricité des centres de données de Meta a atteint 14 975 435 MWh en 2023, soit une hausse de 34 %, et les prélèvements d'eau ont grimpé de 137 %, à mesure que l'entreprise développe de nouveaux systèmes d'IA. Selon le rapport, la consommation d'eau des centres de données a atteint 3 881 mégalitres (un mégalitre est égal à un million de litres), soit une augmentation de 7 %.

Dans certains endroits, comme à Altoona, Clonee, Odense et Prineville, la consommation d'eau a baissé. Cependant, les prélèvements d'eau dans les nappes phréatiques ont augmenté de 137 % pour atteindre 88 mégalitres. Les prélèvements d'eau dans les zones soumises à un stress hydrique de base élevé ou extrêmement élevé ont augmenté de 20 % pour atteindre 1 360 mégalitres. Meta a déclaré qu'il travaille sur de nouvelles approches.

« Nos nouveaux centres de données optimisés pour l'IA, actuellement en construction, seront dotés d'une technologie de refroidissement à sec. Le refroidissement à sec utilise l'air comme moyen de refroidissement, minimisant ainsi l'utilisation de l'eau, ce qui en fait la technologie de refroidissement la plus efficace pour ces emplacements géographiques », indique le rapport de Meta. Mais les experts sont sceptiques quant aux promesses de Meta.

L'entreprise a également utilisé 55 475 mégalitres par le biais de l'électricité achetée, ce qui représente une augmentation de 35 %. D'un point de vue plus positif, les efforts de restauration de l'eau ont atteint 5 889 mégalitres, soit une augmentation de 150 %. L'utilisation de l'eau de l'entreprise est passée de 0,20 à 0,18, mais le prélèvement d'eau par personne active mensuelle a augmenté de 7 % pour atteindre 0,001410 litre, selon le rapport.

Meta développe de manière agressive sa présence dans les centres de données, avec des investissements qui ont atteint 8,5 milliards de dollars au deuxième trimestre 2023. La société s'attend à ce que les coûts augmentent au cours de cette année à mesure qu'elle développe son infrastructure d'IA générative.

Source : Meta AI

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'utilisation abusive du benchmark LMArena par Meta ?

Les benchmarks deviennent des champs de bataille. Peut-on encore considérer ces mesures ?

Avez-vous testé les nouveaux modèles de la famille Llama 4 ? Si oui, que pensez-vous de leurs performances ?

Quelles leçons peut-on tirer de cet incident ?

Voir aussi

Meta lance la famille de modèle Llama 4 : « Le début d'une nouvelle ère d'innovation en matière d'IA nativement multimodale », avec Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth

Satya Nadella affirme que DeepSeek est le nouveau « critère de réussite » de Microsoft en matière d'IA et érige en modèle l'approche de la startup chinoise, qui a ébranlé Wall Street avec son modèle R1

La consommation d'électricité des centres de données de Meta a atteint 14 975 435 MWh en 2023, soit une hausse de 34 % et les prélèvements d'eau ont grimpé de 137 %, à mesure que l'entreprise développe l'IA

Vous avez lu gratuitement 3 666 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence,

Ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence, Ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA

Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence,

Ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA