Le nouveau grand modèle de langage (LLM) de Meta souligne l'investissement massif du réseau social dans les dépenses d'IA, à l'instar des startups OpenAI et Anthropic et d'autres géants de la technologie tels que Google et Amazon. L'annonce met également en lumière le partenariat croissant entre Meta et Nvidia. Ce dernier est un partenaire clé de Meta, fournissant à la société mère de Facebook des puces informatiques appelées GPU pour l'aider à former ses modèles d'IA, y compris la dernière version de Llama.
Jusqu’à aujourd’hui, les grands modèles de langage open-source étaient généralement en retard par rapport à leurs homologues closed-source en termes de capacités et de performances. Aujourd’hui, Meta est entré dans une nouvelle ère où l’open-source ouvre la voie. La société a dévoilé Llama 3.1 405B, qu'elle considére comme le modèle de fondation le plus grand et le plus performant au monde, disponible en libre accès. Avec plus de 300 millions de téléchargements de toutes les versions de Llama à ce jour, Meta ne fait que commencer.
Les nouveautés
- Meta s’engage à rendre l’IA accessible à tous. L'open-source est bénéfique pour les développeurs, pour Meta et pour le monde.
- En mettant l’intelligence ouverte à la portée de tous, les derniers modèles de Meta étendent la longueur du contexte à 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier modèle d'IA open-source “frontier-level”.
- Llama 3.1 405B est unique en son genre, avec une flexibilité inégalée, un contrôle et des capacités de pointe qui rivalisent avec les meilleurs modèles fermés. Le nouveau modèle de Meta permettra à la communauté de débloquer de nouveaux flux de travail, tels que la génération de données synthétiques et la distillation de modèles.
- Meta déclare continuer à développer Llama pour en faire un système fournissant davantage de composants qui fonctionnent avec le modèle, y compris un système de référence. L'entreprise désire donner aux développeurs les outils nécessaires pour créer leurs propres agents personnalisés et de nouveaux types de comportements agentiques. Meta renforce cela avec de nouveaux outils de sécurité et de sûreté, y compris Llama Guard 3 et Prompt Guard, pour aider à construire de manière responsable. Meta lance également un appel à commentaires sur l’API Llama Stack, une interface standard qui permettra aux projets tiers d’exploiter plus facilement les modèles Llama.
- L’écosystème est prêt à être lancé avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&connexions, qui proposeront des services dès le premier jour.
- SNCF Gares & Connexions figure parmi les premiers partenaires à expérimenter llama3.1. Dans la continuité du dispositif autour de la connectivité présenté à Vivatech et STATION F, SNCF Gares & Connexions poursuit des expérimentations qui intègrent de nouvelles fonctionnalités dont le multilinguisme au service de l’information et de l’orientation des voyageurs en gare en français, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une expérience rapide et personnalisée est accessible également via un chatbot WhatsApp, qui permet d’apporter des informations en temps réel aux voyageurs par exemple sur leurs déplacements en gare.
Présentation de Llama 3.1
Llama 3.1 405B est le premier modèle disponible en libre accès qui rivalise avec les meilleurs modèles d’IA en termes de capacités de pointe dans les domaines de la connaissance générale, de l’orientation, des mathématiques, de l’utilisation d’outils et de la traduction multilingue. Avec la sortie du modèle 405B, Meta indique être prêt à stimuler l’innovation, avec des possibilités de croissance et d’exploration sans précédent. La société pense que la dernière génération de Llama va donner naissance à de nouvelles applications et à de nouveaux paradigmes de modélisation, y compris la génération de données synthétiques pour permettre l’amélioration et l’entraînement de modèles plus petits, ainsi que la distillation de modèles – une capacité qui n’a jamais été atteinte à cette échelle dans le domaine de l’open-source.
Dans le cadre de cette dernière version, Meta présente des versions améliorées des modèles 8B et 70B. Ceux-ci sont multilingues et disposent d’une longueur de contexte nettement plus importante (128 Ko), d’une utilisation d’outils de pointe et de capacités de raisonnement globalement plus solides. Cela permet aux derniers modèles de Meta de prendre en charge des cas d’utilisation avancés, tels que le résumé de textes longs, les agents conversationnels multilingues et les assistants de codage. Meta a également modifié sa licence, ce qui permet aux développeurs d’utiliser les résultats des modèles Llama, y compris le 405B, pour améliorer d’autres modèles. Fidèles à son engagement en faveur de l’open-source, Meta a mis dès aujourd’hui ces modèles à la disposition de la communauté pour le téléchargement sur llama.meta.com et Hugging Face, ainsi que pour le développement immédiat sur son vaste écosystème de plateformes partenaires.
Évaluations du modèle
Pour cette version, Meta a évalué les performances sur plus de 150 ensembles de données de référence couvrant un large éventail de langues. En outre, elle a réalisé des évaluations humaines approfondies qui comparent Llama 3.1 à des modèles concurrents dans des scénarios réels. L'évaluation expérimentale de Meta suggère que son modèle phare est compétitif par rapport aux principaux modèles de fondation sur une série de tâches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, les petits modèles de Meta sont compétitifs par rapport aux modèles closed et open-source qui ont un nombre similaire de paramètres.
Architecture du modèle
L’entraînement de Llama 3.1 405B sur plus de 15 trillions de tokens, le plus grand modèle de Meta à ce jour, a constitué un défi majeur. Pour permettre des entraînements à cette échelle et obtenir les résultats qui ont été obtenus dans un délai raisonnable, Meta a considérablement optimisé sa pile d’entraînement complète et poussé l’entraînement de son modèle sur plus de 16 000 GPU H100, faisant du 405B le premier modèle Llama entraîné à cette échelle.
Pour y remédier, Meta a fait des choix de conception qui visent à maintenir le processus de développement du modèle évolutif et simple.
- Meta a opté pour une architecture de modèle de transformateur standard de décodeur uniquement avec des adaptations mineures, plutôt que pour un modèle de mélange d’experts (MoE) afin de maximiser la stabilité de l’apprentissage.
- Meta a adopté une procédure itérative de post-entraînement, où chaque tour utilise un fine-tuning supervisé et une optimisation directe des préférences. Cela a permis de créer des données synthétiques de la plus haute qualité pour chaque cycle et d’améliorer les performances de chaque capacité.
Par rapport aux versions précédentes de Llama, Meta a amélioré à la fois la quantité et la qualité des données qu'elle a utilisé pour la pré- et la post-formation. Ces améliorations comprennent le développement de pipelines de pré-traitement et de curation plus minutieux pour les données de pré-entraînement, le développement d’une assurance qualité plus rigoureuse et des approches de filtrage pour les données de post-entraînement.
Comme prévu par les lois d’échelle pour les modèles de langage, le nouveau modèle phare de Meta surpasse les modèles plus petits formés à l’aide de la même procédure. Meta a également utilisé le modèle de paramètres 405B pour améliorer la qualité post-entraînement de ses modèles plus petits.
Pour soutenir l’inférence de production à grande échelle pour un modèle à l’échelle du 405B, Meta a quantifié ses modèles de 16 bits (BF16) à 8 bits (FP8) numériques, réduisant efficacement les exigences de calcul nécessaires et permettant au modèle de fonctionner dans un seul nœud de serveur.
Fine-tuning de l’instruction et du chat
Avec Llama 3.1 405B, Meta s'est efforcé d’améliorer l’utilité, la qualité et la capacité du modèle à suivre des instructions détaillées en réponse aux instructions de l’utilisateur, tout en garantissant des niveaux élevés de sécurité. Les plus grands défis ont été la prise en charge d’un plus grand nombre de capacités, la fenêtre contextuelle de 128K et l’augmentation de la taille des modèles.
En post-entraînement, Meta a produit des modèles de chat finaux en effectuant plusieurs cycles d’alignement sur le modèle pré-entraîné. Chaque cycle implique un fine-tuning supervisé (supervised fine-tuning – SFT), un échantillonnage par rejet (Rejection Sampling – RS) et une optimisation directe des préférences (Direct Preference Optimization – DPO). Meta a utilisé la génération de données synthétiques pour produire la grande majorité de ses exemples de SFT, en itérant plusieurs fois pour produire des données synthétiques de qualité de plus en plus élevée pour toutes les capacités. En outre, la société investit dans de multiples techniques de traitement des données pour filtrer ces données synthétiques afin d’obtenir la meilleure qualité possible. Cela permet d’adapter la quantité de données fine-tunées à l’ensemble des capacités.
Meta a équilibré soigneusement les données afin de produire un modèle de haute qualité pour toutes les capacités. Par exemple, l'équipe de Meta a maintenu la qualité de son modèle sur les benchmarks à fenêtre de contexte court, même lorsqu'il a été étendu à un contexte de 128K. De même, le modèle continue à fournir des réponses maximalement utiles, même lorsque des mesures d’atténuation de la sécurité ont été ajoutées.
Le système Llama
Les modèles Llama ont toujours été conçus pour fonctionner dans le cadre d’un système global capable d’orchestrer plusieurs composants, y compris l’appel à des outils externes. La vision de Meta est d’aller au-delà des modèles de fondation pour donner aux développeurs l’accès à un système plus large qui leur donne la flexibilité de concevoir et de créer des offres personnalisées qui s’alignent sur leur vision. Cette réflexion a débuté l’année dernière lorsque Meta a présenté pour la première fois l’incorporation de composants en dehors du LLM principal.
Dans le cadre de ses efforts continus pour développer l’IA de manière responsable au-delà de la couche de modèle et pour aider les autres à faire de même, Meta a publié un système de référence complet qui comprend plusieurs exemples d’applications et de nouveaux composants tels que Llama Guard 3, un modèle de sécurité multilingue, et Prompt Guard, un filtre d’injection de prompts. Ces exemples d’applications sont en open-source et peuvent être utilisés par la communauté.
La mise en œuvre des composants de cette vision du système Llama est encore fragmentée. C’est pourquoi l'entreprise a commencé à travailler avec l’industrie, les start-up et la communauté au sens large pour aider à mieux définir les interfaces de ces composants. Pour ce faire, Meta lance un appel à commentaires sur GitHub pour ce qu'elle appelle « Llama Stack ». Llama Stack est un ensemble d’interfaces standardisées et validées pour la construction de composants canoniques de la chaîne d’outils (fine-tuning, génération de données synthétiques) et d’applications agentiques. Meta espère que ces interfaces seront adoptées par l’ensemble de l’écosystème, ce qui devrait faciliter l’interopérabilité.
L’approche ouverte favorise l’innovation
Contrairement aux modèles fermés, les poids des modèles Llama peuvent être téléchargés. Les développeurs peuvent entièrement personnaliser les modèles en fonction de leurs besoins et de leurs applications, s’entraîner sur de nouveaux ensembles de données et procéder à des ajustements supplémentaires. Cela permet à l’ensemble de la communauté des développeurs et au monde entier de mieux réaliser la puissance de l’IA générative. Les développeurs peuvent entièrement personnaliser leurs applications et les exécuter dans n’importe quel environnement, que ce soit sur sursite, dans le cloud ou même localement sur un ordinateur portable, le tout sans partager de données avec Meta.
Bien que beaucoup puissent affirmer que les modèles fermés sont plus rentables, les modèles Llama offrent un coût par token parmi les plus bas de l’industrie, selon les tests effectués par Artificial Analysis. Comme l’a fait remarquer Mark Zuckerberg, l’open-source permettra à un plus grand nombre de personnes dans le monde d’avoir accès aux avantages et aux possibilités de l’IA, de ne pas concentrer le pouvoir entre les mains d’un petit nombre et de déployer la technologie de manière plus homogène et plus sûre dans la société. C’est pourquoi l'entreprise continue à prendre des mesures pour que l’IA en libre accès devienne la norme du secteur.
La communauté a réalisé des choses étonnantes avec les modèles Llama précédents, notamment un compagnon d’étude IA construit avec Llama et déployé dans WhatsApp et Messenger, un LLM adapté au domaine médical conçu pour aider à guider la prise de décision clinique, et une start-up à but non lucratif dans le domaine de la santé au Brésil qui facilite l’organisation et la communication par le système de santé des informations relatives à l’hospitalisation des patients, tout cela en sécurisant les données. Meta se dit impatient de voir ce qu’ils construiront avec les derniers modèles grâce à la puissance de l’open-source.
Construire avec Llama 3.1 405B
Pour le développeur moyen, l’utilisation d’un modèle à l’échelle du 405B est un défi. Bien qu’il s’agisse d’un modèle incroyablement puissant, Meta reconnaît qu’il nécessite des ressources de calcul et une expertise considérables. L'entreprise a échangé avec la communauté, et le développement de l’IA générative ne se limite pas aux modèles d’incitation. Meta désire ainsi permettre à chacun de tirer le meilleur parti de la 405B, y compris pour :
- Inférence en temps réel et par lots
- Fine-tuning supervisé
- Évaluation de votre modèle pour votre application spécifique
- Pré-entraînement continu
- Génération augmentée de récupération (RAG)
- Appel de fonction
- Génération de données synthétiques
C’est là que l’écosystème Llama peut aider. Dès le premier jour, les développeurs peuvent profiter de toutes les capacités avancées du modèle 405B et commencer à construire immédiatement. Les développeurs peuvent également explorer des flux de travail avancés tels que la génération de données synthétiques faciles à utiliser, suivre des instructions clés en main pour la distillation de modèles et activer un RAG transparent avec des solutions de partenaires, notamment AWS, NVIDIA et Databricks. En outre, Groq a optimisé l’inférence à faible latence pour les déploiements dans le cloud, Dell réalisant des optimisations similaires pour les systèmes sur site.
Meta a travaillé avec des projets communautaires clés tels que vLLM, TensorRT et PyTorch pour intégrer le support dès le premier jour afin de s’assurer que la communauté est prête pour le déploiement en production.
Elle espère que sa publication du 405B stimulera également l’innovation au sein de la communauté élargie afin de faciliter l’inférence et le fine-tuning des modèles de cette échelle et de permettre la prochaine vague de recherche sur la distillation de modèles.
Testez la collection de modèles Llama 3.1 dès aujourd’hui
Il y a tellement de potentiel pour construire de nouvelles expériences utiles en utilisant le multilinguisme et l’augmentation de la longueur de la fenêtre de contexte. Avec la pile Llama et les nouveaux outils de sécurité, Meta déclare vouloir continuer à construire avec la communauté open-source de manière responsable. Avant de publier un modèle, l'équipe de Meta s'efforce d’identifier, d’évaluer et d’atténuer les risques potentiels par le biais de plusieurs mesures, notamment des exercices de découverte des risques avant le déploiement, par l’intermédiaire d’une équipe d’experts et d’une mise au point de la sécurité. Par exemple, Meta a mené des exercices intensifs avec des experts externes et internes pour tester les modèles et trouver des façons inattendues de les utiliser.
Bien qu’il s’agisse du plus grand modèle de Meta à ce jour, la société estime qu’il y a encore beaucoup de choses à explorer à l’avenir, notamment des tailles plus adaptées aux appareils, des modalités supplémentaires et davantage d’investissements au niveau de la plateforme d’agents.
Source : Meta
Et vous ?
Que pensez-vous du modèle d'IA Llama 3.1 de Meta et de ses capacités ?
Seriez-vous intéressé par l'utilisation de Llama 3.1 dans votre domaine d'activité ?
Voir aussi :
Meta annonce que Llama 3 est "le LLM le plus performant à ce jour", bientôt disponible sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake
Meta prévoit de lancer la nouvelle version de son LLM d'IA Llama 3 en juillet, avec pour objectif de créer une intelligence artificielle générale (AGI) supérieure à l'intelligence humaine
Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur