
Llama (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) open source développés par Meta AI à partir de février 2023. Meta a développé Llama en réponse à modèle ChatGPT d'OpenAI, qui a lancé la course à l'IA générative. Dans un billet de blogue publié le 5 avril, Meta a annoncé la sortie de Llama 4, affirmant que cette nouvelle version comprend des modèles avancés qui écrasent la concurrence dans tous les domaines.
Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, serait le meilleur modèle multimodal au monde dans sa catégorie, tout en tenant dans un seul GPU Nvidia H100. Selon Meta, « Scout peut battre GPT-4o et Gemini 2.0 Flash sur une large gamme de benchmarks populaires ».
Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, offrirait le meilleur rapport performance/coût de sa catégorie. Il a rapidement obtenu la deuxième place sur LMArena, le site d'évaluation de l'IA où des humains comparent les résultats de différents systèmes et votent pour le meilleur d'entre eux. Maverick a obtenu un score ELO de 1417, qui le place au-dessus du GPT-4o d'OpenAI, mais juste en dessous de Gemini 2.5 Pro.
Meta accusé d'avoir triché lors du processus d'évaluation du modèle Maverick
Cette réussite semblait positionner Llama 4 comme un concurrent de taille des modèles propriétaires d'OpenAI, d'Anthropic et de Google. C'est alors que des chercheurs en IA, en fouillant dans la documentation de Meta, ont découvert quelque chose d'inhabituel qui remet en cause les revendications de Meta. En petits caractères, la société reconnaît que la version de Maverick testée sur LMArena n'est pas la même que celle qui est disponible pour le public.
Meta a déployé sur LMArena une version expérimentale de Maverick qui a été spécifiquement « optimisée pour la conversation ». La société a omis de préciser ce détail lors de la publication du modèle, ce qui a rendu furieux les chercheurs en IA. Les administrateurs de LMArena ont déclaré sur X (ex-Twitter) :

We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) April 8, 2025
Early…
Un porte-parole de Meta, Ashley Gabriel, a déclaré que « l'entreprise expérimente tous les types de variantes personnalisées ». Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est une version optimisée pour le chat que nous avons expérimentée et qui fonctionne bien sur LMArena. Nous avons maintenant publié notre version open source et nous allons voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d'utilisation ».
Scout et Maverick sont les meilleurs à ce jour grâce à la distillation du dernier modèle de la famille Llama 4 : Behemoth. Llama 4 Behemoth est un modèle de 288 milliards de paramètres actifs avec 16 experts ; c'est le modèle le plus puissant de Meta à ce jour. « Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en étant plus performants que des modèles de taille beaucoup plus importante », note Meta.
Le comportement de Meta remet davantage en cause la fiabilité des benchmarks
LMArena a fait part de ses inquiétudes quant à l'utilisation abusive du système par Meta. Lorsque les fournisseurs de modèles peuvent soumettre des versions optimisées de leurs modèles à des fins de test tout en diffusant des versions différentes au public, les classements de référence tels que LMArena perdent de leur sens en tant qu'indicateurs de la performance dans le monde réel. Le comportement ne viole pas explicitement les règles de la plateforme.
Toutefois, LMArena a déclaré avoir pris des mesures pour « empêcher ce type d'ajustement excessif à l'avenir ». Simon Willison, chercheur indépendant en IA, se dit désillusionné : « c'est l'indice de référence général le plus respecté parce que tous les autres sont nuls. Lorsque Llama 4 est sorti, le fait qu'il soit arrivé deuxième dans l'arène, juste après Gemini 2.5 Pro, m'a vraiment impressionné, et je m'en veux de ne pas avoir lu les petits caractères ».
Peu après la sortie des modèles Maverick et Scout, la communauté de l'IA a commencé à parler d'une rumeur selon laquelle Meta aurait également entraîné ses modèles Llama 4 pour qu'ils obtiennent de meilleures performances dans les tests de référence, tout en cachant leurs véritables limites.
Ahmad Al-Dahle, vice-président de l'IA générative chez Meta, a répondu à ces accusations dans un billet publié sur X : « nous avons également entendu des affirmations selon lesquelles nous nous sommes entraînés sur des ensembles de tests ; c'est tout simplement faux et nous ne ferions jamais cela. Notre meilleure compréhension est que la qualité variable que les gens constatent est due à la nécessité de stabiliser les implémentations ».
Certains ont également remarqué que le Llama 4 a été publié à une heure étrange. Le samedi n'est généralement pas le jour où les grandes nouveautés en matière d'IA sont publiées. Lorsque quelqu'un a demandé sur Threads pourquoi Llama 4 avait été publié pendant le week-end, Mark Zuckerberg, PDG de Meta, a répondu : « c'est la date à laquelle il était prêt ». Cependant, les chercheurs en IA accusent Meta d'avoir tenté de manipuler le public.
« C'est une publication très déroutante en général. Le score du modèle que nous avons obtenu n'a aucune valeur pour moi. Je ne peux même pas utiliser le modèle pour lequel ils ont obtenu un score élevé », a déclaré le chercheur en IA Simon Willison, qui suit de près et documente les modèles d'IA.
La course à l'IA s'intensifie et transforme les benchmarks en champs de bataille
Alors que le développement de l'IA s'accélère, cet épisode montre comment les benchmarks deviennent des champs de bataille. Il montre également que Meta est désireux d'être perçu comme un leader de l'IA, même si cela implique de jouer avec le système. Le cheminement de Meta vers la sortie de Llama 4 n'a pas été sans heurts. L'entreprise a repoussé le lancement à plusieurs reprises parce que le modèle ne répondait pas aux attentes internes.
@TheXeophon confirmed chat model score was kind of fake news... "experimental chat version" pic.twitter.com/XxeDXwSBHw
— Nathan Lambert (@natolambert) April 6, 2025
Ces attentes sont particulièrement élevées depuis que DeepSeek, une startup chinoise spécialisée dans l'IA, a publié son modèle open source R1 qui a suscité beaucoup d'intérêt. DeepSeek-R1 a égalé les performances du modèle phare o1 d'OpenAI, avec un coût inférieur de 95 %. La startup chinoise a démontré qu'il est possible de développer des modèles d'IA de pointe à faible coût. L'annonce de DeepSeek-R1 a provoqué une hécatombe à Wall Street.
Lors d'une réunion avec le personnel en mars, le PDG de Microsoft, Satya Nadella, a déclaré que DeepSeek est le nouveau critère de réussite de Microsoft en matière d'IA et a érigé en modèle l'approche de la startup chinoise. Microsoft va tirer des leçons de DeepSeek et restructurer son approche en matière d'IA.
En fin de compte, l'utilisation d'un modèle optimisé dans LMArena place les développeurs dans une position difficile. Lorsqu'ils choisissent des modèles tels que Llama 4 pour leurs applications, ils se tournent naturellement vers les références pour obtenir des conseils. Toutefois, comme c'est le cas pour Llama 4 Maverick, ces références peuvent refléter des capacités qui ne sont pas réellement disponibles dans les modèles auxquels le public a accès.
Par ailleurs, soulignons que pour diverses raisons, LMArena n'est pas la mesure la plus fiable des performances d'un modèle d'IA. Mais les entreprises d'IA n'ont généralement pas personnalisé ou affiné leurs modèles pour obtenir de meilleurs résultats sur LMArena ; ou n'ont pas admis l'avoir fait, du moins.
Des préoccupations liées à la consommation d'électricité et d'eau de Meta
En août 2024, Meta avait affirmé qu'il aurait besoin de beaucoup plus de puissance de calcul...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.