IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta a truqué les tests pour donner l'impression que son nouveau modèle d'IA Llama 4 est meilleur que la concurrence,
Ce qui remet davantage en cause la pertinence des résultats des benchmarks de l'IA

Le , par Mathis Lucas

111PARTAGES

4  0 
Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.

Llama (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) open source développés par Meta AI à partir de février 2023. Meta a développé Llama en réponse à modèle ChatGPT d'OpenAI, qui a lancé la course à l'IA générative. Dans un billet de blogue publié le 5 avril, Meta a annoncé la sortie de Llama 4, affirmant que cette nouvelle version comprend des modèles avancés qui écrasent la concurrence dans tous les domaines.

Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, serait le meilleur modèle multimodal au monde dans sa catégorie, tout en tenant dans un seul GPU Nvidia H100. Selon Meta, « Scout peut battre GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks populaires ».

Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, offrirait le meilleur rapport performance/coût de sa catégorie. Il a rapidement obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents systèmes et votent pour le meilleur d'entre eux. Maverick a obtenu un score ELO de 1417, qui le place au-dessus du GPT-4o d'OpenAI, mais juste en dessous de Gemini 2.5 Pro.

Meta accusé d'avoir triché lors du processus d'évaluation du modèle Maverick

Cette réussite semblait positionner Llama 4 comme un concurrent de taille des modèles propriétaires d'OpenAI, d'Anthropic et de Google. C'est alors que des chercheurs en IA, en fouillant dans la documentation de Meta, ont découvert quelque chose d'inhabituel qui remet en cause les revendications de Meta. En petits caractères, la société reconnaît que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.

Meta a déployé sur LMArena une version expérimentale de Maverick qui a été spécifiquement « optimisée pour la conversation ». La société a omis de préciser ce détail lors de la publication du modèle, ce qui a rendu furieux les chercheurs en IA. Les administrateurs de LMArena ont déclaré sur X (ex-Twitter) :

Citation Envoyé par LMArena


L'interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » est un modèle personnalisé pour optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d'évaluations équitables et reproductibles afin que cette confusion ne se reproduise plus à l'avenir.

« Le score du modèle de chat était une sorte d'infox... », a écrit un critique sur X. Un autre a souligné : « ils ont utilisé une version expérimentale optimisée pour l'occasion afin de s'assurer le meilleur score, ce qui a permis de soutenir leur battage médiatique. Cela remet en cause la fiabilité des benchmarks ».



Un porte-parole de Meta, Ashley Gabriel, a déclaré que « l'entreprise expérimente tous les types de variantes personnalisées ». Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est une version optimisée pour le chat que nous avons expérimentée et qui fonctionne bien sur LMArena. Nous avons maintenant publié notre version open source et nous allons voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d'utilisation ».

Scout et Maverick sont les meilleurs à ce jour grâce à la distillation du dernier modèle de la famille Llama 4 : Behemoth. Llama 4 Behemoth est un modèle de 288 milliards de paramètres actifs avec 16 experts ; c'est le modèle le plus puissant de Meta à ce jour. « Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en étant plus performants que des modèles de taille beaucoup plus importante », note Meta.

Le comportement de Meta remet davantage en cause la fiabilité des benchmarks

LMArena a fait part de ses inquiétudes quant à l'utilisation abusive du système par Meta. Lorsque les fournisseurs de modèles peuvent soumettre des versions optimisées de leurs modèles à des fins de test tout en diffusant des versions différentes au public, les classements de référence tels que LMArena perdent de leur sens en tant qu'indicateurs de la performance dans le monde réel. Le comportement ne viole pas explicitement les règles de la plateforme.

Toutefois, LMArena a déclaré avoir pris des mesures pour « empêcher ce type d'ajustement excessif à l'avenir ». Simon Willison, chercheur indépendant en IA, se dit désillusionné : « c'est l'indice de référence général le plus respecté parce que tous les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !