IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta lance la famille de modèle Llama 4 : « Le début d'une nouvelle ère d'innovation en matière d'IA nativement multimodale », avec Llama 4 Scout, Llama 4 Maverick et Llama 4 Behemoth

Le , par Jade Emy

5PARTAGES

6  0 
Meta annonce les premiers modèles de la famille Llama 4. Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, serait le meilleur modèle multimodal au monde dans sa catégorie, tout en tenant dans un seul GPU NVIDIA H100. Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, offrirait le meilleur rapport performance/coût de sa catégorie. Ces modèles sont les meilleurs à ce jour grâce à la distillation de Llama 4 Behemoth, un modèle de 288 milliards de paramètres actifs avec 16 experts qui est le modèle le plus puissant de Meta à ce jour.

En août 2024, Meta, qui développe Llama, avait affirmé qu'il aurait besoin de beaucoup plus de puissance de calcul pour former ses modèles à l'avenir. Le PDG Mark Zuckerberg a déclaré que pour entraîner le Llama 4, l'entreprise aura besoin de 10 fois plus de puissance de calcul que pour l'entraînement du Llama 3. Meta veut faire de Llama 4 le modèle le plus avancé sur le marché.

Pour rappel, Llama, pour Large Language Model Meta AI, est une famille de grands modèles de langage (LLM) open source publiés par Meta AI à partir de février 2023. Les poids des modèles de la première version de Llama n'étaient disponibles que pour les chercheurs, au cas par cas, sous une licence non commerciale. Les versions suivantes de Llama ont été rendues accessibles en dehors du monde universitaire et publiées sous des licences autorisant une certaine utilisation commerciale.

Récemment, Mark Zuckerberg a annoncé quatre nouveaux LLM, dont deux sont déjà prêts et deux autres sont en cours d'élaboration. C'est "une étape importante pour Meta AI et pour l'open source", a déclaré Mark Zuckerberg ce week-end. "Pour la première fois, les meilleurs modèles de petite taille, de taille moyenne, et potentiellement bientôt de frontière [grand modèle] seront open source", ajoutant "Notre objectif est de construire l'IA la plus performante au monde, de la mettre en open source et de la rendre universellement accessible pour que tout le monde en profite."

Voici un extrait de l'annonce de Mark Zuckerberg :

Cela fait un moment que je dis que je pense que l'IA open source va devenir le modèle de référence. Et avec le Llama 4, c'est ce qui commence à se produire.

- Le premier modèle est Llama 4 Scout. Il est extrêmement rapide et nativement multimodal. Il dispose d'une longueur de contexte de 10 millions de jetons « presque infinie » et est conçu pour fonctionner sur un seul GPU. [Le billet de blog de Meta indique qu'il tient sur un NVIDIA H100]. Il s'agit de 17 milliards de paramètres par 16 experts, et c'est de loin le petit modèle le plus performant de sa catégorie.

- Le deuxième modèle est le Llama 4 Maverick - le cheval de bataille. Il bat GPT-4o et Gemini Flash 2 sur tous les points de référence. Il est plus petit et plus efficace que DeepSeek v3, mais il reste comparable sur le texte, et il est nativement multimodal. Il s'agit de 17B paramètres x 128 experts, et il est conçu pour fonctionner sur un seul hôte afin de faciliter l'inférence.

C'est une véritable bête.

https://youtu.be/niNV4uziW50

Mark Zuckerberg a promis plus d'informations sur le "Llama 4 Reasoning", mais le quatrième modèle sera appelé Llama 4 Behemoth. "Cette chose est massive. Plus de 2 000 milliards de paramètres". Meta AI indique qu'il dispose également d'un modèle de 288 milliards de paramètres actifs, qu'il surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur les benchmarks STEM, et qu'il "servira d'enseignant pour les nouveaux modèles".

"Je ne connais personne qui entraîne un modèle plus grand que le nôtre", déclare Zuckberg dans sa vidéo, qualifiant Behemoth de "modèle de base le plus performant au monde, et il n'a même pas encore fini de s'entraîner”. "Si vous voulez essayer Llama 4, vous pouvez utiliser Meta AI dans WhatsApp, Messenger ou Instagram Direct ou vous pouvez aller sur notre site web à meta.ai. Les modèles Scout et Maverick peuvent être téléchargés sur llama.com et Hugging Face."

Si les performances de ces premiers modèles de Llama 4 semblent impressionnantes, il serait intéressant de découvrir le processus et les données d'entrainement de ces modèles. En effet, Meta est accusé d'avoir utilisé des contenus protégés par droit d'auteur pour l'entrainement de ses modèles. Une plainte en justice récente a également révélé que Mark Zuckerberg, PDG de Meta, aurait donné son feu vert pour que le modèle d'IA open source LLama de l'entreprise soit entraîné à partir d'œuvres protégées par le droit d'auteur.

La plainte allègue que Meta a enfreint les droits d'auteur en utilisant des documents sans l'autorisation des créateurs. Meta maintient que l'utilisation de ces œuvres dans le cadre de l'entraînement de Llama relève de l'usage loyal. Cependant, les plaignants affirment que cette pratique représente une menace pour les moyens de subsistance des créateurs et des auteurs.


Voici l'annonce de Meta :

[QUOTE]
Le troupeau Llama 4 : Le début d'une nouvelle ère d'innovation en matière d'IA nativement multimodale

Alors que de plus en plus de personnes continuent d'utiliser l'intelligence artificielle pour améliorer leur vie quotidienne, il est important que les modèles et les systèmes de pointe soient librement accessibles afin que chacun puisse construire l'avenir des expériences personnalisées. Aujourd'hui, nous sommes ravis d'annoncer la suite de modèles la plus avancée qui supporte l'ensemble de l'écosystème Llama. Nous présentons Llama 4 Scout et Llama 4 Maverick, les premiers modèles multimodaux natifs à poids ouvert avec une prise en charge sans précédent de la longueur du contexte et nos premiers modèles construits à l'aide d'une architecture de mélange d'experts (MoE). Nous présentons également en avant-première Llama 4 Behemoth, l'un des LLM les plus intelligents au monde et notre modèle le plus puissant à ce jour, qui servira d'enseignant pour nos nouveaux modèles.

Ces modèles Llama 4 marquent le début d'une nouvelle ère pour l'écosystème Llama. Nous avons conçu deux modèles efficaces dans la série Llama 4, Llama 4 Scout, un modèle à 17 milliards de paramètres actifs avec 16 experts, et Llama 4 Maverick, un modèle à 17 milliards de paramètres actifs avec 128 experts. Le premier modèle s'adapte sur un seul GPU H100 (avec quantification Int4) tandis que le second s'adapte sur un seul hôte H100. Nous avons également formé un modèle d'enseignant, Llama 4 Behemoth, qui surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks axés sur les STIM tels que MATH-500 et GPQA Diamond. Bien que nous n'ayons pas encore publié Llama 4 Behemoth car il est encore en cours de formation, nous sommes ravis de partager plus de détails techniques sur notre approche.

Nous continuons à croire que l'ouverture stimule l'innovation et qu'elle est bonne pour les développeurs, bonne pour Meta et bonne pour le monde. Le Llama 4 Scout et le Llama 4 Maverick peuvent être téléchargés dès aujourd'hui sur llama.com et Hugging Face afin que chacun puisse continuer à créer de nouvelles expériences en utilisant notre dernière technologie. Nous les mettrons également à disposition par l'intermédiaire de nos partenaires dans les prochains jours. Vous pouvez également essayer Meta AI avec Llama 4 dès aujourd'hui dans WhatsApp, Messenger, Instagram Direct et sur le site web Meta.AI.

Ce n'est que le début de la collection Llama 4. Nous pensons que les systèmes les plus intelligents doivent être capables de prendre des mesures généralisées, de converser naturellement avec les humains et de travailler sur des problèmes difficiles qu'ils n'ont jamais vus auparavant. Donner au Llama des superpouvoirs dans ces domaines permettra d'offrir de meilleurs produits aux utilisateurs de nos plateformes et de multiplier les opportunités pour les développeurs d'innover dans les prochains grands cas d'utilisation pour les consommateurs et les entreprises. Nous poursuivons nos recherches et nos prototypes de modèles et de produits, et nous en dirons plus sur notre vision lors de la LlamaCon du 29 avril - inscrivez-vous pour en savoir plus.

Que vous soyez un développeur qui construit à partir de nos modèles, une entreprise qui les intègre dans ses flux de travail, ou simplement curieux des utilisations potentielles et des avantages de l'IA, le Llama 4 Scout et le Llama 4 Maverick sont les meilleurs choix pour ajouter une intelligence de nouvelle génération à vos produits. Aujourd'hui, nous sommes ravis de vous en dire plus sur les quatre grandes étapes de leur développement et de vous donner un aperçu de notre processus de recherche et de conception. Nous sommes également impatients de voir les nouvelles expériences incroyables que la communauté construira avec nos nouveaux modèles Llama 4.

Pré-entraînement

Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en surpassant des modèles de taille beaucoup plus importante. La construction de la prochaine génération de modèles Llama nous a obligés à adopter plusieurs nouvelles approches lors du pré-entraînement.

Nos nouveaux modèles Llama 4 sont nos premiers modèles qui utilisent une architecture de mélange d'experts (MoE). Dans les modèles MoE, un seul jeton n'active qu'une fraction de l'ensemble des paramètres. Les architectures MoE sont plus efficaces en termes de calcul pour l'apprentissage et l'inférence et, compte tenu d'un budget fixe de FLOPs d'apprentissage, offrent une meilleure qualité par rapport à un modèle dense.


À titre d'exemple, les modèles Llama 4 Maverick ont 17 milliards de paramètres actifs et 400 milliards de paramètres totaux. Nous utilisons alternativement des couches denses et des couches de mélange d'experts (MoE) pour l'efficacité de l'inférence. Les couches MoE utilisent 128 experts acheminés et un expert partagé. Chaque jeton est envoyé à l'expert partagé ainsi qu'à l'un des 128 experts acheminés. Par conséquent, bien que tous les paramètres soient stockés en mémoire, seul un sous-ensemble de l'ensemble des paramètres est activé lors de l'utilisation de ces modèles. Llama 4 Maverick peut être exécuté sur un seul hôte NVIDIA H100 DGX pour un déploiement facile, ou avec une inférence distribuée pour une efficacité maximale.

Les modèles Llama 4 sont conçus avec une multimodalité native, incorporant une fusion précoce pour intégrer de manière transparente les jetons de texte et de vision dans une colonne vertébrale de modèle unifiée. La fusion précoce est une avancée majeure, car elle nous permet de pré-entraîner conjointement le modèle avec de grandes quantités de données textuelles, d'images et de vidéos non étiquetées. Nous avons également amélioré le codeur de vision dans Llama 4. Il est basé sur MetaCLIP mais entraîné séparément en conjonction avec un modèle Llama gelé afin de mieux adapter l'encodeur au LLM.

Nous avons développé une nouvelle technique d'apprentissage, appelée MetaP, qui nous permet de définir de manière fiable les hyperparamètres critiques du modèle, tels que les taux d'apprentissage par couche et les échelles d'initialisation. Nous avons constaté que les hyperparamètres choisis se transfèrent bien à travers différentes valeurs de la taille du lot, de la largeur du modèle, de la profondeur et des jetons d'entraînement. Llama 4 permet d'affiner les efforts d'open source en effectuant un pré-entraînement sur 200 langues, dont plus de 100 avec plus d'un milliard de tokens chacune, et globalement 10x plus de jetons multilingues que Llama 3.

En outre, nous nous concentrons sur l'efficacité de l'entraînement des modèles en utilisant la précision FP8, sans sacrifier la qualité et en garantissant une utilisation élevée des FLOPs du modèle - lors du pré-entraînement de notre modèle Behemoth de Llama 4 en utilisant FP8 et 32K GPU, nous avons atteint 390 TFLOPs/GPU. Le mélange de données global pour l'entraînement comprenait plus de 30 billions de jetons, soit plus du double du mélange de pré-entraînement du Llama 3, et incluait divers ensembles de données de texte, d'images et de vidéos.

Nous avons continué à entraîner le modèle dans ce que nous appelons « l'entraînement intermédiaire » pour améliorer les capacités de base avec de nouvelles recettes d'entraînement, y compris l'extension du contexte long à l'aide d'ensembles de données spécialisés. Cela nous a permis d'améliorer la qualité du modèle tout en débloquant la meilleure longueur de contexte d'entrée de 10M pour Llama 4 Scout.

Post-entraînement de nos nouveaux modèles

Nos nouveaux modèles comprennent des options plus petites et plus grandes pour répondre à un éventail de cas d'utilisation et de besoins des développeurs. Le Llama 4 Maverick offre des performances inégalées en matière de compréhension d'images et de textes, permettant la création d'applications d'IA sophistiquées qui franchissent les barrières linguistiques. Le Llama 4 Maverick est le modèle de référence de notre produit pour les applications d'assistant général et de chat, et il est parfait pour la compréhension précise des images et l'écriture créative.

Le plus grand défi lors de la post-formation du modèle Llama 4 Maverick a été de maintenir un équilibre entre les multiples modalités d'entrée, le raisonnement et les capacités de conversation. Pour mélanger les modalités, nous avons mis au point une stratégie de cursus soigneusement élaborée qui ne compromet pas les performances par rapport aux modèles experts de chaque modalité. Avec Llama 4, nous avons réorganisé notre pipeline post-entraînement en adoptant une approche différente : réglage fin supervisé léger (SFT) > apprentissage par renforcement en ligne (RL) > optimisation directe des préférences légère (DPO). L'un des principaux enseignements était que le SFT et le DPO peuvent trop contraindre le modèle, limitant l'exploration pendant la phase d'apprentissage par renforcement en ligne et conduisant à une précision sous-optimale, en particulier dans les domaines du raisonnement, du codage et des mathématiques. Pour y remédier, nous avons supprimé plus de 50 % de nos données considérées comme faciles en utilisant les modèles Llama comme juge et nous avons effectué un SFT léger sur l'ensemble restant plus difficile. Lors de l'étape suivante de RL multimodal en ligne, en sélectionnant soigneusement des invites plus difficiles, nous avons été en mesure d'obtenir un changement de performance. En outre, nous avons mis en œuvre une stratégie continue de RL en ligne, dans laquelle nous avons alterné entre l'entraînement du modèle et son utilisation pour filtrer et conserver en permanence uniquement les invites de difficulté moyenne à élevée. Cette stratégie s'est avérée très bénéfique en termes de calcul et de précision. Nous avons ensuite procédé à une DPO légère pour traiter les cas particuliers liés à la qualité des réponses du modèle, ce qui a permis d'atteindre un bon équilibre entre l'intelligence du modèle et ses capacités de conversation. L'architecture du pipeline et la stratégie RL en ligne continue avec filtrage adaptatif des données ont abouti à un modèle de conversation généraliste de premier plan, doté de capacités d'intelligence et de compréhension d'images de pointe.

En tant que LLM généraliste, Llama 4 Maverick contient 17 milliards de paramètres actifs, 128 experts et 400 milliards de paramètres au total, offrant ainsi une qualité élevée à un prix inférieur à celui de Llama 3.3 70B. Llama 4 Maverick est le meilleur modèle multimodal de sa catégorie, dépassant des modèles comparables tels que GPT-4o et Gemini 2.0 en matière de codage, de raisonnement, de multilinguisme, de contexte long et d'images, et il est compétitif par rapport à DeepSeek v3.1, qui est beaucoup plus grand, en matière de codage et de raisonnement.


Notre plus petit modèle, Llama 4 Scout, est un modèle à usage général avec 17 milliards de paramètres actifs, 16 experts et 109 milliards de paramètres totaux, qui offre des performances de pointe pour sa catégorie. Le Llama 4 Scout augmente considérablement la longueur du contexte pris en charge, qui passe de 128 000 dans le Llama 3 à 10 millions de jetons, ce qui est un record dans l'industrie. Cela ouvre un monde de possibilités, y compris le résumé de documents multiples, l'analyse de l'activité de l'utilisateur pour des tâches personnalisées, et le raisonnement sur de vastes bases de code.

Llama 4 Scout est à la fois pré-entraîné et post-entraîné avec une longueur de contexte de 256K, ce qui confère au modèle de base une capacité de généralisation de longueur avancée. Nous présentons des résultats convaincants dans des tâches telles que la recherche d'une « aiguille dans une botte de foin » pour le texte, ainsi que des log-vraisemblances négatives cumulées (NLL) sur 10 millions de tokens de code. L'une des principales innovations de l'architecture de Llama 4 est l'utilisation de couches d'attention entrelacées sans encastrement positionnel. En outre, nous utilisons une mise à l'échelle de l'attention en fonction de la température du temps d'inférence afin d'améliorer la généralisation de la longueur. Nous appelons cette architecture iRoPE, où « i » signifie couches d'attention « entrelacées », soulignant l'objectif à long terme de prendre en charge une longueur de contexte « infinie », et « RoPE » fait référence aux enchâssements de position rotatifs employés dans la plupart des couches.



Nous avons entraîné nos deux modèles sur une grande variété d'images et d'images vidéo fixes afin de leur donner une large compréhension visuelle, y compris des activités temporelles et des images connexes. Cela permet une interaction sans effort sur des entrées multi-images avec des invites textuelles pour des tâches de raisonnement et de compréhension visuels. Les modèles ont été pré-entraînés sur 48 images et nous les avons testés en post-entraînement avec de bons résultats jusqu'à huit images.

Llama 4 Scout est également le meilleur de sa catégorie en matière d'ancrage d'image, capable d'aligner les invites de l'utilisateur sur des concepts visuels pertinents et d'ancrer les réponses du modèle sur des régions de l'image. Cela permet une réponse plus précise aux questions visuelles pour le LLM afin de mieux comprendre l'intention de l'utilisateur et de localiser les objets d'intérêt. Llama 4 Scout dépasse également les modèles comparables en matière de codage, de raisonnement, de contexte long et de repères d'image, et offre des performances supérieures à celles de tous les modèles Llama précédents.


Ces nouveaux modèles constituent d'importants éléments de base qui permettront d'assurer l'avenir de la connexion humaine. Conformément à notre engagement en faveur de l'open source, Llama 4 Maverick et Llama 4 Scout peuvent être téléchargés sur llama.com et Hugging Face, et seront bientôt disponibles sur les plateformes de données et d'informatique en nuage les plus répandues, sur le silicium en périphérie et auprès des intégrateurs de services internationaux.

Le Llama atteint de nouvelles dimensions : Le 2T Behemoth

Nous sommes ravis de partager un aperçu du Llama 4 Behemoth, un modèle d'enseignant qui fait preuve d'une intelligence avancée parmi les modèles de sa catégorie. Le Llama 4 Behemoth est également un modèle multimodal de mélange d'experts, avec 288B paramètres actifs, 16 experts, et près de deux milles milliards de paramètres au total. Offrant des performances de pointe pour les modèles non raisonnés en mathématiques, en multilinguisme et en images, il était le choix idéal pour enseigner les modèles Llama 4 plus petits. Nous avons codistillé le modèle Llama 4 Maverick à partir du modèle Llama 4 Behemoth en tant que modèle enseignant, ce qui a permis d'améliorer considérablement la qualité des mesures d'évaluation des tâches finales. Nous avons développé une nouvelle fonction de perte de distillation qui pondère dynamiquement les cibles douces et dures au cours de l'entraînement. La codistillation du Llama 4 Behemoth pendant le pré-entraînement permet d'amortir le coût de calcul des passes avant gourmandes en ressources nécessaires pour calculer les cibles de distillation pour la majorité des données d'entraînement utilisées dans l'entraînement des étudiants. Pour les nouvelles données supplémentaires incorporées dans la formation des élèves, nous avons effectué des passes avant sur le modèle Behemoth pour créer des cibles de distillation.


Le post-entraînement d'un modèle comportant 2 000 milliards de paramètres a également constitué un défi de taille, qui nous a obligés à revoir complètement la recette, en commençant par l'échelle des données. Pour maximiser les performances, nous avons dû élaguer 95 % des données SFT, contre 50 % pour les modèles plus petits, afin de mettre l'accent sur la qualité et l'efficacité. Nous avons également constaté que l'exécution d'un SFT léger suivi d'un apprentissage par renforcement (RL) à grande échelle produisait des améliorations encore plus significatives dans les capacités de raisonnement et de codage du modèle. Notre recette d'apprentissage par renforcement s'est concentrée sur l'échantillonnage d'invites difficiles en effectuant une analyse pass@k avec le modèle de politique et en élaborant un programme d'entraînement d'une dureté croissante. Nous avons également constaté que le filtrage dynamique des invites présentant un avantage nul pendant l'entraînement et la construction de lots d'entraînement avec des invites mixtes provenant de capacités multiples ont permis d'améliorer les performances en math...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !