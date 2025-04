Meta a récemment lancé la famille de modèle Llama 4 : Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth. L'entreprise a déclaré que chacun de ces modèles est le meilleur dans sa catégorie. Par exemple, Meta a déclaré que Llama 4 Maverick offre le meilleur rapport performance/coût de sa catégorie. D'après les résultats des tests de référence, Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) est arrivé en deuxième position, battant des modèles tels que GPT-4o d'OpenAI et Gemini 2.0 Flash de Google, et n'étant devancé que par Gemini 2.5 Pro. Il apparaît toutefois qu'il y a eu une entourloupe lors du processus d'évaluation : la version de Maverick testée sur LMArena n'est pas la même que celle mise à la disposition du public. Meta a déployé sur LMArena une « version expérimentale » de Maverick qui a été spécifiquement « optimisée pour la conversation », ce qui explique ses performances sur le benchmark.Les utilisateurs ont remarqué des différences de comportement entre le Maverick utilisé dans les benchmarks et celui mis à la disposition du public. Cela a conduit à des accusations de tricherie de la part de Meta, ce qui a suscité une réponse d'un cadre de Meta sur X. LMArena a également reconnu que Meta n'avait pas respecté ses politiques, s'est excusé auprès du public et a publié une mise à jour de ses politiques.[TWITTER]

We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)



Early…