Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables

Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Le 26 septembre 2024 à 15:18, par Jade Emy

52PARTAGES

Meta annonce Llama 3.2 qui comprend des modèles de vision et des modèles légers. Les modèles légers 1B et 3B de Llama 3.2 peuvent s'exécuter localement sur l'appareil, ce qui offre une grande confidentialité car les données ne quittent jamais l'appareil. Meta publie également Llama Stack pour simplifier le travail des développeurs dans différents environnements, notamment single-node, on-prem, cloud et on-device.

LLama (Large Language Model Meta AI) est un grand modèle de langage (LLM) développé par Meta et rendu publiquement accessible. Deux autres versions du modèle plus spécifiques, optimisées à partir de LLama, ont également été publiées par Meta : un agent conversationnel, appelé Llama Chat, et un assistant de programmation, Code Llama.

En avril 2024, Meta a présenté Llama 3, en proposant des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama a démontré des performances de pointe sur une large gamme de références industrielles, ainsi que de nouvelles capacités, comme un raisonnement amélioré.

Le 25 septembre 2024, Meta a publié Llama 3.2, qui comprend des LLM de vision de petite et moyenne taille (11B et 90B), ainsi que des modèles légers de texte uniquement (1B et 3B) qui s'adaptent aux périphériques et aux appareils mobiles, y compris des versions pré-entraînées et ajustées en fonction des instructions.

Les modèles Llama 3.2 1B et 3B prennent en charge la longueur de contexte de 128 000 jetons et sont à la pointe de leur catégorie pour les cas d'utilisation sur appareil tels que le résumé, le suivi d'instructions et les tâches de réécriture exécutées localement à la périphérie. Ces modèles sont compatibles avec le matériel Qualcomm et MediaTek et optimisés pour les processeurs Arm.

Soutenus par un large écosystème, les modèles de vision Llama 3.2 11B et 90B remplacent aisément leurs équivalents textuels correspondants, tout en dépassant les tâches de compréhension d'images par rapport aux modèles fermés. Contrairement à d'autres modèles multimodaux ouverts, les modèles pré-entraînés et alignés peuvent être affinés pour des applications personnalisées à l'aide de torchtune et déployés localement à l'aide de torchchat. Ils peuvent également être essayés en utilisant l'assistant intelligent, Meta AI.

Meta a également partagé les premières distributions officielles de Llama Stack, qui simplifieront la façon dont les développeurs travaillent avec les modèles Llama dans différents environnements, notamment single-node, on-prem, cloud et on-device, permettant un déploiement clé en main de la génération augmentée par récupération (RAG) et d'applications dotées d'outils avec une sécurité intégrée. Meta collabore avec AWS, Databricks, Dell Technologies, Fireworks, Infosys et Together AI pour construire des distributions Llama Stack pour leurs clients d'entreprise en aval. La distribution sur appareil se fait via PyTorch ExecuTorch, et la distribution sur un seul nœud se fait via Ollama.

Voici les déclarations de Meta lors de son annonce :

Nous avons été enthousiasmés par l'impact des modèles du troupeau Llama 3.1 au cours des deux mois qui ont suivi leur annonce, notamment le 405B, le premier modèle ouvert d'IA de niveau frontière. Bien que ces modèles soient incroyablement puissants, nous sommes conscients que leur utilisation nécessite des ressources de calcul et une expertise considérables. Nous avons également entendu des développeurs qui n'ont pas accès à ces ressources et qui veulent quand même avoir l'opportunité de construire avec Llama. Comme le fondateur et PDG de Meta, Mark Zuckerberg, l'a annoncé aujourd'hui lors de la conférence Connect, ils n'auront plus à attendre. Aujourd'hui, nous publions Llama 3.2, qui comprend des LLM de vision de petite et moyenne taille (11B et 90B) et des modèles légers de texte uniquement (1B et 3B) qui s'adaptent à certains périphériques et appareils mobiles.

Cela ne fait qu'un an et demi que nous avons annoncé Llama pour la première fois, et nous avons fait des progrès incroyables en si peu de temps. Cette année, Llama a multiplié sa croissance par 10 et est devenue la norme en matière d'innovation responsable. Llama reste également à la pointe de l'ouverture, de la modifiabilité et de la rentabilité, et il est compétitif par rapport aux modèles fermés - il est même en tête dans certains domaines. C'est pourquoi nous continuons à partager nos recherches et à collaborer avec nos partenaires et la communauté des développeurs.

Les modèles du Llama 3.2 peuvent être téléchargés sur llama.com et Hugging Face. Ils sont également disponibles pour un développement immédiat sur notre vaste écosystème de plates-formes partenaires. Les partenaires sont une partie importante de ce travail, et nous avons travaillé avec plus de 25 entreprises, y compris AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, et Snowflake, pour activer les services dès le premier jour. Pour la version 3.2 de Llama, nous travaillons également avec les partenaires Arm, MediaTek et Qualcomm afin d'offrir une large gamme de services dès le lancement. À partir d'aujourd'hui, nous mettons également Llama Stack à la disposition de la communauté. Plus de détails sur la dernière version, y compris des informations sur la disponibilité multimodale en Europe, peuvent être trouvés dans notre politique d'utilisation acceptable.

Llama 3.2 : Présentation des modèles multimodales et des modèles légers

Les deux plus grands modèles de la collection Llama 3.2, 11B et 90B, prennent en charge les cas d'utilisation du raisonnement à partir d'images, tels que la compréhension au niveau des documents, y compris les tableaux et les graphiques, le sous-titrage d'images et les tâches de repérage visuel, telles que le repérage directionnel d'objets dans des images sur la base de descriptions en langage naturel. Les modèles 11B et 90B peuvent également combler le fossé entre la vision et le langage en extrayant les détails d'une image, en comprenant la scène, puis en rédigeant une ou deux phrases qui pourraient être utilisées comme légende de l'image pour aider à raconter l'histoire.

Les modèles légers 1B et 3B sont très performants grâce à la génération de textes multilingues et aux capacités d'appel d'outils. Ces modèles permettent aux développeurs de créer des applications d'agents personnalisés, sur l'appareil, avec une grande confidentialité, où les données ne quittent jamais l'appareil. L'exécution locale de ces modèles présente deux avantages majeurs. Tout d'abord, les invites et les réponses peuvent sembler instantanées, puisque le traitement est effectué localement.

Deuxièmement, l'exécution locale des modèles préserve la confidentialité en n'envoyant pas de données telles que les messages et les informations de calendrier vers le cloud, ce qui rend l'application globale plus privée. Le traitement étant effectué localement, l'application peut clairement contrôler les requêtes qui restent sur l'appareil et celles qui doivent être traitées par un modèle plus important dans le cloud.

L'évaluation suggère que les modèles de vision Llama 3.2 sont compétitifs par rapport aux principaux modèles de base, Claude 3 Haiku et GPT4o-mini, pour la reconnaissance d'images et une série de tâches de compréhension visuelle. Le modèle 3B surpasse les modèles Gemma 2 2.6B et Phi 3.5-mini dans des tâches telles que le suivi d'instructions, le résumé, la réécriture d'invites et l'utilisation d'outils, tandis que le modèle 1B est compétitif par rapport à Gemma. Les performances des modèles Llama 3.2 ont été évalué sur plus de 150 ensembles de données de référence couvrant un large éventail de langues.

Voici comment Meta a entrainé ces nouveaux modèles :

Modèles de vision

En tant que premiers modèles Llama à prendre en charge des tâches de vision, les modèles 11B et 90B ont nécessité une architecture de modèle entièrement nouvelle qui prend en charge le raisonnement par l'image.

Pour ajouter la prise en charge des entrées d'images, Meta a formé un ensemble de poids adaptateurs qui intègrent l'encodeur d'images pré-entraîné dans le modèle de langage pré-entraîné. L'adaptateur consiste en une série de couches d'attention croisée qui introduisent les représentations de l'encodeur d'images dans le modèle de langage.

Ils ont entraîné l'adaptateur sur des paires texte-image afin d'aligner les représentations de l'image sur les représentations du langage. Pendant l'entraînement de l'adaptateur, ils ont également mis à jour les paramètres de l'encodeur d'images, sans intentionnellement mettre à jour les paramètres du modèle de langage. Ce faisant, ils ont pu conserver les capacités textuelles intactes, ce qui permet aux développeurs de remplacer directement les modèles Llama 3.1.

La pipeline d'entraînement pour les modèles de vision se compose de plusieurs étapes, à partir de modèles de texte Llama 3.1 pré-entraînés. Tout d'abord, ils ajoutent des adaptateurs et des encodeurs d'images, puis ils effectuent un pré-entraînement sur des paires de données bruitées à grande échelle (image, texte). Ensuite, ils ont entraîné les modèles sur des données de paires (image, texte) de haute qualité à moyenne échelle dans le domaine et enrichies de connaissances.

En post-entraînement, ils ont utilisé une recette similaire à celle des modèles de texte en effectuant plusieurs cycles d'alignement sur le réglage fin supervisé, l'échantillonnage de rejet et l'optimisation des préférences directes. Ils tirent également parti de la génération de données synthétiques en utilisant le modèle Llama 3.1 pour filtrer et augmenter les questions et les réponses au-dessus des images du domaine, et ils ont utilisé un modèle de récompense pour classer toutes les réponses candidates afin de fournir des données de mise au point de haute qualité. Ils ont également ajouté des données relatives à l'atténuation de la sécurité afin de produire un modèle présentant un niveau élevé de sécurité tout en conservant l'utilité du mode.

Le résultat final est un ensemble de modèles capables de prendre en compte à la fois des images et des textes, de comprendre en profondeur et de raisonner sur cette combinaison. Il s'agit d'une nouvelle étape vers des modèles Llama dotés de capacités agentiques encore plus riches.

Modèles légers

Les modèles enseignants puissants peuvent être exploités pour créer des modèles plus petits dont les performances sont améliorées. Meta a utilisé deux méthodes (l'élagage et la distillation) sur les modèles 1B et 3B, ce qui en fait les premiers modèles Llama légers hautement performants qui peuvent tenir sur des appareils de manière efficace.

L'élagage a permis de réduire la taille des modèles existants dans l'ensemble des Llama tout en récupérant autant de connaissances et de performances que possible. Pour les modèles 1B et 3B, ils ont adopté l'approche de l'élagage structuré en une seule fois à partir du Llama 3.1 8B. Il s'agit de supprimer systématiquement des parties du réseau et d'ajuster l'ampleur des poids et des gradients afin de créer un modèle plus petit et plus efficace qui conserve les performances du réseau d'origine.

La distillation des connaissances utilise un réseau plus grand pour transmettre des connaissances à un réseau plus petit, l'idée étant qu'un modèle plus petit peut obtenir de meilleures performances en utilisant un enseignant qu'en partant de zéro. Pour les modèles 1B et 3B de Llama 3.2, ils ont incorporé les logits des modèles Llama 3.1 8B et 70B dans la phase de pré-entraînement du développement du modèle, où les sorties (logits) de ces grands modèles ont été utilisées comme cibles au niveau des jetons. La distillation des connaissances a été utilisée après l'élagage pour récupérer les performances.

En post-entraînement, ils ont utilisé une recette similaire à celle de Llama 3.1 et produient des modèles de chat finaux en effectuant plusieurs cycles d'alignement sur le modèle pré-entraîné. Chaque tour implique un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation directe des préférences (DPO).

Lors du post-entraînement, ils ont augmenté la prise en charge de la longueur du contexte à 128 000 jetons, tout en conservant la même qualité que le modèle pré-entraîné. Ils ont également généré des données synthétiques qui font l'objet d'un traitement et d'un filtrage minutieux afin d'en garantir la qualité. Enfin, ils ont mélangé soigneusement les données afin d'optimiser la qualité dans de multiples domaines tels que le résumé, la réécriture, le suivi des instructions, le raisonnement linguistique et l'utilisation d'outils.

Pour permettre à la communauté d'innover sur ces modèles, Meta annonce avoir travaillé en étroite collaboration avec Qualcomm et Mediatek, les deux principaux fabricants de systèmes mobiles sur puce (SoC) au monde, et Arm, qui fournit la plateforme de calcul fondamentale pour 99 % des appareils mobiles. Les poids publiés sont basés sur les valeurs numériques BFloat16. Meta étudiraient également des variantes quantifiées qui fonctionneront encore plus rapidement.

Distributions Llama Stack

En juillet 2024, Meta avait publié un appel à commentaires sur l'API Llama Stack, une interface standardisée pour les composants canoniques de la chaîne d'outils (réglage fin, génération de données synthétiques) afin de personnaliser les modèles Llama et de construire des applications agentiques. L'engagement a été très fort. Meta a partagé avec cette annonce le travail qu'ils ont fait pour rendre l'API réelle :

Ils ont construit une implémentation de référence des API pour l...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables

Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables

Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil