Meta présente Meta Llama 3 qui serait "le grand modèle de langage le plus performant et le plus accessible à ce jour".Meta présente Meta Llama 3, la prochaine génération de son grand modèle de langage open source à la pointe de la technologie. Les modèles Llama 3 seront bientôt disponibles sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake, et avec le support de plateformes matérielles proposées par AMD, AWS, Dell, Intel, NVIDIA et Qualcomm.
Meta vient de partager les deux premiers modèles de la nouvelle génération de Llama, Meta Llama 3, disponible pour une large utilisation. Cette version propose des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama démontre des performances de pointe sur une large gamme de références industrielles et offre de nouvelles capacités, y compris un raisonnement amélioré.
Meta affirme qu'il s'agit des meilleurs modèles open source de leur catégorie, point final. En soutien à son approche ouverte de longue date, Meta déclare "mettre Llama 3 entre les mains de la communauté." "Nous voulons donner le coup d'envoi à la prochaine vague d'innovation dans le domaine de l'IA, qu'il s'agisse d'applications, d'outils de développement, d'évaluations, d'optimisations de l'inférence ou de bien d'autres choses encore. Nous sommes impatients de voir ce que vous allez construire et nous attendons avec impatience vos commentaires", ajoute Meta.
Meta commente l'annonce en déclarant :
Nous nous engageons à développer Llama 3 de manière responsable et nous proposons diverses ressources pour aider les autres à l'utiliser de manière responsable également. Cela inclut l'introduction de nouveaux outils de confiance et de sécurité avec Llama Guard 2, Code Shield et CyberSec Eval 2. Dans les mois à venir, nous prévoyons d'introduire de nouvelles capacités, des fenêtres contextuelles plus longues, des tailles de modèles supplémentaires et des performances améliorées, et nous partagerons le document de recherche sur le Llama 3. Meta AI, conçu à partir de la technologie Llama 3, est désormais l'un des principaux assistants IA au monde, capable de stimuler votre intelligence et d'alléger votre charge de travail, en vous aidant à apprendre, à accomplir des tâches, à créer du contenu et à vous connecter afin de tirer le meilleur parti de chaque instant.
Les objectifs de Meta pour Llama 3
Avec Llama 3, Meta a entrepris de construire les meilleurs modèles ouverts qui soient au même niveau que les meilleurs modèles propriétaires disponibles aujourd'hui.
Meta :
Nous voulions tenir compte des commentaires des développeurs afin d'améliorer l'utilité globale de Llama 3 et nous le faisons tout en continuant à jouer un rôle de premier plan dans l'utilisation et le déploiement responsables des LLM. Nous adhérons à l'éthique de l'open source qui consiste à publier tôt et souvent afin de permettre à la communauté d'accéder à ces modèles alors qu'ils sont encore en cours de développement.
Nous voulions tenir compte des commentaires des développeurs afin d'améliorer l'utilité globale de Llama 3 et nous le faisons tout en continuant à jouer un rôle de premier plan dans l'utilisation et le déploiement responsables des LLM. Nous adhérons à l'éthique de l'open source qui consiste à publier tôt et souvent afin de permettre à la communauté d'accéder à ces modèles alors qu'ils sont encore en cours de développement.
Performances de pointe
Meta annonce que ses nouveaux modèles Llama 3 à 8B et 70B paramètres constituent un bond en avant par rapport à Llama 2 et établissent un nouvel état de l'art pour les modèles LLM à ces échelles.
Meta :
Grâce aux améliorations apportées à la pré-formation et à la post-formation, nos modèles pré-formés et affinés par des instructions sont les meilleurs modèles existant aujourd'hui à l'échelle des paramètres 8B et 70B. Les améliorations apportées à nos procédures de post-entraînement ont permis de réduire considérablement les taux de faux refus, d'améliorer l'alignement et d'accroître la diversité des réponses des modèles. Nous avons également constaté une amélioration considérable des capacités de raisonnement, de génération de code et de suivi des instructions, ce qui rend le Llama 3 plus facile à piloter.
Grâce aux améliorations apportées à la pré-formation et à la post-formation, nos modèles pré-formés et affinés par des instructions sont les meilleurs modèles existant aujourd'hui à l'échelle des paramètres 8B et 70B. Les améliorations apportées à nos procédures de post-entraînement ont permis de réduire considérablement les taux de faux refus, d'améliorer l'alignement et d'accroître la diversité des réponses des modèles. Nous avons également constaté une amélioration considérable des capacités de raisonnement, de génération de code et de suivi des instructions, ce qui rend le Llama 3 plus facile à piloter.
Lors du développement de Llama 3, Meta a examiné les performances du modèle sur des points de référence standard et ils ont également cherché à optimiser les performances pour les scénarios du monde réel.
Meta :
À cette fin, nous avons développé un nouvel ensemble d'évaluation humaine de haute qualité. Cet ensemble d'évaluation contient 1 800 invites qui couvrent 12 cas d'utilisation clés : demande de conseils, brainstorming, classification, réponse à des questions fermées, codage, écriture créative, extraction, habiter un personnage, réponse à des questions ouvertes, raisonnement, réécriture et résumé. Pour éviter un surajustement accidentel de nos modèles sur cet ensemble d'évaluation, même nos propres équipes de modélisation n'y ont pas accès.
À cette fin, nous avons développé un nouvel ensemble d'évaluation humaine de haute qualité. Cet ensemble d'évaluation contient 1 800 invites qui couvrent 12 cas d'utilisation clés : demande de conseils, brainstorming, classification, réponse à des questions fermées, codage, écriture créative, extraction, habiter un personnage, réponse à des questions ouvertes, raisonnement, réécriture et résumé. Pour éviter un surajustement accidentel de nos modèles sur cet ensemble d'évaluation, même nos propres équipes de modélisation n'y ont pas accès.
Les classements des préférences des annotateurs humains basés sur cet ensemble d'évaluations mettent en évidence les performances du modèle de suivi des instructions 70B par rapport à des modèles concurrents de taille comparable dans des scénarios réels.
Le modèle pré-entraîné établit également un nouvel état de l'art pour les modèles LLM à ces échelles.
Pour développer un modèle de language de qualité, Meta pense qu'il est important d'innover, de mettre à l'échelle et d'optimiser la simplicité. Ils ont adopté cette philosophie de conception tout au long du projet Llama 3 en se concentrant sur quatre ingrédients clés : l'architecture du modèle, les données de pré-entraînement, la mise à l'échelle du pré-entraînement et le réglage fin des instructions. Les voici :
[QUOTE][LIST][*]Architecture du modèle
Conformément à notre philosophie de conception, nous avons opté pour une architecture relativement standard de transformateur de décodeur uniquement dans Llama 3. Par rapport à Llama 2, nous avons apporté plusieurs améliorations importantes. Llama 3 utilise un tokenizer avec un vocabulaire de 128K tokens qui encode le langage beaucoup plus efficacement, ce qui conduit à une amélioration substantielle de la performance du modèle. Pour améliorer l'efficacité de l'inférence des modèles Llama 3, nous avons adopté l'attention portée aux requêtes groupées (GQA) pour les tailles 8B et 70B. Nous avons entraîné les modèles sur des séquences de 8 192 tokens, en utilisant un masque pour s'assurer que l'auto-attention ne dépasse pas les limites du document.
[*]Données d'entraînement
Pour former le meilleur modèle de langage, la curation d'un grand ensemble de données d'entraînement de haute qualité est primordiale. Conformément à nos principes de conception, nous avons investi massivement dans les données de pré-entraînement. Llama 3 est pré-entraîné sur plus de 15T tokens qui ont tous été collectés à partir de sources accessibles au public. Notre ensemble de données d'entraînement est sept fois plus important que celui utilisé pour Llama 2, et il comprend quatre fois plus de code. Pour préparer les cas d'utilisation multilingues à venir, plus de 5 % de l'ensemble de données de préformation de Llama 3 est constitué de données non anglaises de haute qualité qui couvrent plus de 30 langues. Cependant, nous n'attendons pas le même niveau de performance dans ces langues qu'en anglais.
Pour s'assurer que Llama 3 est formé sur des données de la plus haute qualité, nous avons développé une série de pipelines de filtrage de données. Ces pipelines comprennent l'utilisation de filtres heuristiques, de filtres NSFW, d'approches de déduplication sémantique et de classificateurs de texte pour prédire la qualité des données. Nous avons constaté que les générations précédentes de Llama sont étonnamment bonnes pour identifier les données de haute qualité, c'est pourquoi nous avons utilisé Llama 2 pour générer les données d'entraînement pour les classificateurs de qualité de texte qui alimentent Llama 3.
Nous avons également réalisé des expériences approfondies afin d'évaluer les meilleures façons de mélanger des données provenant de différentes sources dans notre ensemble de données final de préformation. Ces expériences nous ont permis de sélectionner un mélange de données qui garantit les performances de Llama 3 dans tous les cas d'utilisation, y compris les questions anecdotiques, les STIM, le codage, les connaissances historiques, etc.
[...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.