IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables
Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Le , par Jade Emy

10PARTAGES

4  0 
Meta annonce Llama 3.2 qui comprend des modèles de vision et des modèles légers. Les modèles légers 1B et 3B de Llama 3.2 peuvent s'exécuter localement sur l'appareil, ce qui offre une grande confidentialité car les données ne quittent jamais l'appareil. Meta publie également Llama Stack pour simplifier le travail des développeurs dans différents environnements, notamment single-node, on-prem, cloud et on-device.

LLama (Large Language Model Meta AI) est un grand modèle de langage (LLM) développé par Meta et rendu publiquement accessible. Deux autres versions du modèle plus spécifiques, optimisées à partir de LLama, ont également été publiées par Meta : un agent conversationnel, appelé Llama Chat, et un assistant de programmation, Code Llama.

En avril 2024, Meta a présenté Llama 3, en proposant des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama a démontré des performances de pointe sur une large gamme de références industrielles, ainsi que de nouvelles capacités, comme un raisonnement amélioré.

Le 25 septembre 2024, Meta a publié Llama 3.2, qui comprend des LLM de vision de petite et moyenne taille (11B et 90B), ainsi que des modèles légers de texte uniquement (1B et 3B) qui s'adaptent aux périphériques et aux appareils mobiles, y compris des versions pré-entraînées et ajustées en fonction des instructions.


Les modèles Llama 3.2 1B et 3B prennent en charge la longueur de contexte de 128 000 jetons et sont à la pointe de leur catégorie pour les cas d'utilisation sur appareil tels que le résumé, le suivi d'instructions et les tâches de réécriture exécutées localement à la périphérie. Ces modèles sont compatibles avec le matériel Qualcomm et MediaTek et optimisés pour les processeurs Arm.

Soutenus par un large écosystème, les modèles de vision Llama 3.2 11B et 90B remplacent aisément leurs équivalents textuels correspondants, tout en dépassant les tâches de compréhension d'images par rapport aux modèles fermés. Contrairement à d'autres modèles multimodaux ouverts, les modèles pré-entraînés et alignés peuvent être affinés pour des applications personnalisées à l'aide de torchtune et déployés localement à l'aide de torchchat. Ils peuvent également être essayés en utilisant l'assistant intelligent, Meta AI.

Meta a également partagé les premières distributions officielles de Llama Stack, qui simplifieront la façon dont les développeurs travaillent avec les modèles Llama dans différents environnements, notamment single-node, on-prem, cloud et on-device, permettant un déploiement clé en main de la génération augmentée par récupération (RAG) et d'applications dotées d'outils avec une sécurité intégrée. Meta collabore avec AWS, Databricks, Dell Technologies, Fireworks, Infosys et Together AI pour construire des distributions Llama Stack pour leurs clients d'entreprise en aval. La distribution sur appareil se fait via PyTorch ExecuTorch, et la distribution sur un seul nœud se fait via Ollama.

Voici les déclarations de Meta lors de son annonce :

Nous avons été enthousiasmés par l'impact des modèles du troupeau Llama 3.1 au cours des deux mois qui ont suivi leur annonce, notamment le 405B, le premier modèle ouvert d'IA de niveau frontière. Bien que ces modèles soient incroyablement puissants, nous sommes conscients que leur utilisation nécessite des ressources de calcul et une expertise considérables. Nous avons également entendu des développeurs qui n'ont pas accès à ces ressources et qui veulent quand même avoir l'opportunité de construire avec Llama. Comme le fondateur et PDG de Meta, Mark Zuckerberg, l'a annoncé aujourd'hui lors de la conférence Connect, ils n'auront plus à attendre. Aujourd'hui, nous publions Llama 3.2, qui comprend des LLM de vision de petite et moyenne taille (11B et 90B) et des modèles légers de texte uniquement (1B et 3B) qui s'adaptent à certains périphériques et appareils mobiles.

Cela ne fait qu'un an et demi que nous avons annoncé Llama pour la première fois, et nous avons fait des progrès incroyables en si peu de temps. Cette année, Llama a multiplié sa croissance par 10 et est devenue la norme en matière d'innovation responsable. Llama reste également à la pointe de l'ouverture, de la modifiabilité et de la rentabilité, et il est compétitif par rapport aux modèles fermés - il est même en tête dans certains domaines. C'est pourquoi nous continuons à partager nos recherches et à collaborer avec nos partenaires et la communauté des développeurs.

Les modèles du Llama 3.2 peuvent être téléchargés sur llama.com et Hugging Face. Ils sont également disponibles pour un développement immédiat sur notre vaste écosystème de plates-formes partenaires. Les partenaires sont une partie importante de ce travail, et nous avons travaillé avec plus de 25 entreprises, y compris AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, et Snowflake, pour activer les services dès le premier jour. Pour la version 3.2 de Llama, nous travaillons également avec les partenaires Arm, MediaTek et Qualcomm afin d'offrir une large gamme de services dès le lancement. À partir d'aujourd'hui, nous mettons également Llama Stack à la disposition de la communauté. Plus de détails sur la dernière version, y compris des informations sur la disponibilité multimodale en Europe, peuvent être trouvés dans notre politique d'utilisation acceptable.

Llama 3.2 : Présentation des modèles multimodales et des modèles légers

Les deux plus grands modèles de la collection Llama 3.2, 11B et 90B, prennent en charge les cas d'utilisation du raisonnement à partir d'images, tels que la compréhension au niveau des documents, y compris les tableaux et les graphiques, le sous-titrage d'images et les tâches de repérage visuel, telles que le repérage directionnel d'objets dans des images sur la base de descriptions en langage naturel. Les modèles 11B et 90B peuvent également combler le fossé entre la vision et le langage en extrayant les détails d'une image, en comprenant la scène, puis en rédigeant une ou deux phrases qui pourraient être utilisées comme légende de l'image pour aider à raconter l'histoire.

Les modèles légers 1B et 3B sont très performants grâce à la génération de textes multilingues et aux capacités d'appel d'outils. Ces modèles permettent aux développeurs de créer des applications d'agents personnalisés, sur l'appareil, avec une grande confidentialité, où les données ne quittent jamais l'appareil. L'exécution locale de ces modèles présente deux avantages majeurs. Tout d'abord, les invites et les réponses peuvent sembler instantanées, puisque le traitement est effectué localement.

Deuxièmement, l'exécution locale des modèles préserve la confidentialité en n'envoyant pas de données telles que les messages et les informations de calendrier vers le cloud, ce qui rend l'application globale plus privée. Le traitement étant effectué localement, l'application peut clairement contrôler les requêtes qui restent sur l'appareil et celles qui doivent être traitées par un modèle plus important dans le cloud.

L'évaluation suggère que les modèles de vision Llama 3.2 sont compétitifs par rapport aux principaux modèles de base, Claude 3 Haiku et GPT4o-mini, pour la reconnaissance d'images et une série de tâches de compréhension visuelle. Le modèle 3B surpasse les modèles Gemma 2 2.6B et Phi 3.5-mini dans des tâches telles que le suivi d'instructions, le résumé, la réécriture d'invites et l'utilisation d'outils, tandis que le modèle 1B est compétitif par rapport à Gemma. Les performances des modèles Llama 3.2 ont été évalué sur plus de 150 ensembles de données de référence couvrant un large éventail de langues.



Voici comment Meta a entrainé ces nouveaux modèles :

Modèles de vision

En tant que premiers modèles Llama à prendre en charge des tâches de vision, les modèles 11B et 90B ont nécessité une architecture de modèle entièrement nouvelle qui prend en charge le raisonnement par l'image.

Pour ajouter la prise en charge des entrées d'images, Meta a formé un ensemble de poids adaptateurs qui intègrent l'encodeur d'images pré-entraîné dans le modèle de langage pré-entraîné. L'adaptateur consiste en une série de couches d'attention croisée qui introduisent les représentations de l'encodeur d'images dans le modèle de langage.

Ils ont entraîné l'adaptateur sur des paires texte-image afin d'aligner les représentations de l'image sur les représentations du langage. Pendant l'entraînement de l'adaptateur, ils ont également mis à jour les paramètres de l'encodeur d'images, sans intentionnellement mettre à jour les paramètres du modèle de langage. Ce faisant, ils ont pu conserver les capacités textuelles intactes, ce qui permet aux développeurs de remplacer directement les modèles Llama 3.1.

La pipeline d'entraînement pour les modèles de vision se compose de plusieurs étapes, à partir de modèles de texte Llama 3.1 pré-entraînés. Tout d'abord, ils ajoutent des adaptateurs et des encodeurs d'images, puis ils effectuent un pré-entraînement sur des paires de données bruitées à grande échelle (image, texte). Ensuite, ils ont entraîné les modèles sur des données de paires (image, texte) de haute qualité à moyenne échelle dans le domaine et enrichies de connaissances.

En post-entraînement, ils ont utilisé une recette similaire à celle des modèles de texte en effectuant plusieurs cycles d'alignement sur le réglage fin supervisé, l'échantillonnage de rejet et l'optimisation des préférences directes. Ils tirent également parti de la génération de données synthétiques en utilisant le modèle Llama 3.1 pour filtrer et augmenter les questions et les réponses au-dessus des images du domaine, et ils ont utilisé un modèle de récompense pour classer toutes les réponses candidates afin de fournir des données de mise au point de haute qualité. Ils ont également ajouté des données relatives à l'atténuation de la sécurité afin de produire un modèle présentant un niveau élevé de sécurité tout en conservant l'utilité du mode.

Le résultat final est un ensemble de modèles capables de prendre en compte à la fois des images et des textes, de comprendre en profondeur et de raisonner sur cette combinaison. Il s'agit d'une nouvelle étape vers des modèles Llama dotés de capacités agentiques encore plus riches.


Modèles légers

Les modèles enseignants puissants peuvent être exploités pour créer des modèles plus petits dont les performances sont améliorées. Meta a utilisé deux méthodes (l'élagage et la distillation) sur les modèles 1B et 3B, ce qui en fait les premiers modèles Llama légers hautement performants qui peuvent tenir sur des appareils de manière efficace.

L'élagage a permis de réduire la taille des modèles existants dans l'ensemble des Llama tout en récupérant autant de connaissances et de performances que possible. Pour les modèles 1B et 3B, ils ont adopté l'approche de l'élagage structuré en une seule fois à partir du Llama 3.1 8B. Il s'agit de supprimer systématiquement des parties du réseau et d'ajuster l'ampleur des poids et des gradients afin de créer un modèle plus petit et plus efficace qui conserve les performances du réseau d'origine.

La distillation des connaissances utilise un réseau plus grand pour transmettre des connaissances à un réseau plus petit, l'idée étant qu'un modèle plus petit peut obtenir de meilleures performances en utilisant un enseignant qu'en partant de zéro. Pour les modèles 1B et 3B de Llama 3.2, ils ont incorporé les logits des modèles Llama 3.1 8B et 70B dans la phase de pré-entraînement du développement du modèle, où les sorties (logits) de ces grands modèles ont été utilisées comme cibles au niveau des jetons. La distillation des connaissances a été utilisée après l'élagage pour récupérer les performances.


En post-entraînement, ils ont utilisé une recette similaire à celle de Llama 3.1 et produient des modèles de chat finaux en effectuant plusieurs cycles d'alignement sur le modèle pré-entraîné. Chaque tour implique un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation directe des préférences (DPO).

Lors du post-entraînement, ils ont augmenté la prise en charge de la longueur du contexte à 128 000 jetons, tout en conservant la même qualité que le modèle pré-entraîné. Ils ont également généré des données synthétiques qui font l'objet d'un traitement et d'un filtrage minutieux afin d'en garantir la qualité. Enfin, ils ont mélangé soigneusement les données afin d'optimiser la qualité dans de multiples domaines tels que le résumé, la réécriture, le suivi des instructions, le raisonnement linguistique et l'utilisation d'outils.

Pour permettre à la communauté d'innover sur ces modèles, Meta annonce avoir travaillé en étroite collaboration avec Qualcomm et Mediatek, les deux principaux fabricants de systèmes mobiles sur puce (SoC) au monde, et Arm, qui fournit la plateforme de calcul fondamentale pour 99 % des appareils mobiles. Les poids publiés sont basés sur les valeurs numériques BFloat16. Meta étudiraient également des variantes quantifiées qui fonctionneront encore plus rapidement.



Distributions Llama Stack

En juillet 2024, Meta avait publié un appel à commentaires sur l'API Llama Stack, une interface standardisée pour les composants canoniques de la chaîne d'outils (réglage fin, génération de données synthétiques) afin de personnaliser les modèles Llama et de construire des applications agentiques. L'engagement a été très fort. Meta a partagé avec cette annonce le travail qu'ils ont fait pour rendre l'API réelle :

Ils ont construit une implémentation de référence des API pour l'inférence, l'utilisation d'outils et le RAG. En outre, Meta a travaillé avec des partenaires pour les adapter afin qu'ils deviennent des fournisseurs d'API. Enfin, ils ont introduit la distribution Llama Stack comme moyen de regrouper plusieurs fournisseurs d'API qui fonctionnent bien ensemble pour fournir un point d'accès unique aux développeurs. Ils partagent maintenant avec la communauté une expérience simplifiée et cohérente qui leur permettra de travailler avec les modèles Llama dans de multiples environnements, y compris on-prem, cloud, single-node et on-device.


L'ensemble des versions comprend :

  1. Llama CLI (interface de ligne de commande) pour construire, configurer et exécuter les distributions de Llama Stack
  2. Code client dans plusieurs langages, y compris python, node, kotlin et swift
  3. Conteneurs Docker pour le serveur de distribution de Llama Stack et le fournisseur d'API d'agents.
  4. Distributions multiples
    • Distribution de Llama Stack à nœud unique via l'implémentation interne de Meta et Ollama
    • Distribution de Llama Stack dans le cloud via AWS, Databricks, Fireworks et Together
    • Distribution de Llama Stack sur appareil iOS mise en œuvre via PyTorch ExecuTorch
    • Distribution de Llama Stack sur site soutenue par Dell



Sécurité au niveau du système

L'adoption d'une approche ouverte présente de nombreux avantages. Elle permet à un plus grand nombre de personnes dans le monde d'accéder aux opportunités offertes par l'IA, empêche la concentration du pouvoir entre les mains d'un petit nombre et déploie la technologie de manière plus équitable et plus sûre dans l'ensemble de la société. Tout en continuant à innover, Meta souhaite donner aux développeurs les moyens de construire des systèmes sûrs et responsables.

Dans le prolongement des précédentes versions et des efforts continus pour soutenir l'innovation responsable, Meta annonce l'ajout de nouvelles mises à jour des mesures de protection :

  • Tout d'abord, Meta publie Llama Guard 3 11B Vision, qui est conçu pour prendre en charge la nouvelle capacité de compréhension des images de Llama 3.2 et filtrer les invites d'entrée texte+image ou les réponses de sortie texte à ces invites.
  • Deuxièmement, en lançant les modèles de Llama 1B et 3B destinés à être utilisés dans des environnements plus contraignants tels que les appareils, ils ont également optimisé le Llama Guard afin de réduire considérablement son coût de déploiement. Llama Guard 3 1B est basé sur le modèle Llama 3.2 1B et a été élagué et quantifié, ramenant sa taille de 2 858 Mo à 438 Mo, ce qui rend son déploiement plus efficace que jamais.


Ces nouvelles solutions sont intégrées dans les implémentations de référence, les démonstrations et les applications et sont prêtes à être utilisées par la communauté open source dès l'annonce de disponibilité.



Meta conclue l'annonce :

Llama 3.2 est sur le point d'atteindre plus de personnes que jamais et de permettre de nouveaux cas d'utilisation passionnants. Nous pensons que partager ces modèles avec la communauté open source n'est pas suffisant. Nous voulons nous assurer que les développeurs disposent également des outils dont ils ont besoin pour construire avec Llama de manière responsable. Dans le cadre de nos efforts continus de publication responsable, nous offrons aux développeurs de nouveaux outils et ressources, et comme toujours, nous mettrons à jour les meilleures pratiques dans notre Guide d'utilisation responsable.

Nous continuons à partager les dernières avancées de l'écosystème Llama parce que nous croyons que l'ouverture stimule l'innovation et est bénéfique pour les développeurs, Meta et le monde. Nous sommes ravis de poursuivre les conversations que nous avons avec nos partenaires et la communauté open source, et comme toujours, nous sommes impatients de voir ce que la communauté construit en utilisant Llama 3.2 et Llama Stack.
Et vous ?

Que pensez-vous de ces nouveaux modèles de Llama 3.2 ?

Voir aussi :

Le moteur d'IA Llama de Meta connaît une croissance rapide de l'adoption de l'open source, avec une multiplication par 10 depuis 2023. Les modèles Llama approchent les 350 millions de téléchargements à ce jour

Le projet Astra est l'avenir de l'IA chez Google : un assistant d'IA multimodal qui peut voir le monde via la caméra de votre appareil et analyser et comprendre les objets devant lui comme le font les humains

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM, avec moins de données d'entraînement et des modèles d'IA de plus petite taille

IBM publie les modèles code de son IA Granite en open-source, afin de résoudre les problèmes des développeurs pour livrer des logiciels fiables. Ce modèle serait plus performant que Llama 3, selon IBM

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 30/09/2024 à 11:18
Mark, c'est pas la taille qui compte
Trouve déjà un débouché économique à ton metavers avant de repartir dans une autre folie dépensière ! /s
1  0