IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta publie Llama 3.1, qui selon le PDG Mark Zuckerberg est le plus grand et le meilleur modèle d'IA open-source à ce jour, surpassant ChatGPT, et qui sera bientôt l'assistant d'IA le plus utilisé

Le , par Anthony

465PARTAGES

5  0 
Meta a annoncé le mardi 23 juillet la dernière version de son modèle d'intelligence artificielle Llama, baptisée Llama 3.1. La nouvelle technologie Llama se décline en trois versions différentes, dont l'une est le modèle d'intelligence artificielle le plus grand et le plus performant de Meta à ce jour. Comme les versions précédentes de Llama, le nouveau modèle reste open source, ce qui signifie qu'il est accessible gratuitement.

Le nouveau grand modèle de langage (LLM) de Meta souligne l'investissement massif du réseau social dans les dépenses d'IA, à l'instar des startups OpenAI et Anthropic et d'autres géants de la technologie tels que Google et Amazon. L'annonce met également en lumière le partenariat croissant entre Meta et Nvidia. Ce dernier est un partenaire clé de Meta, fournissant à la société mère de Facebook des puces informatiques appelées GPU pour l'aider à former ses modèles d'IA, y compris la dernière version de Llama.

Jusqu’à aujourd’hui, les grands modèles de langage open-source étaient généralement en retard par rapport à leurs homologues closed-source en termes de capacités et de performances. Aujourd’hui, Meta est entré dans une nouvelle ère où l’open-source ouvre la voie. La société a dévoilé Llama 3.1 405B, qu'elle considére comme le modèle de fondation le plus grand et le plus performant au monde, disponible en libre accès. Avec plus de 300 millions de téléchargements de toutes les versions de Llama à ce jour, Meta ne fait que commencer.


Les nouveautés

  • Meta s’engage à rendre l’IA accessible à tous. L'open-source est bénéfique pour les développeurs, pour Meta et pour le monde.
  • En mettant l’intelligence ouverte à la portée de tous, les derniers modèles de Meta étendent la longueur du contexte à 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier modèle d'IA open-source “frontier-level”.
  • Llama 3.1 405B est unique en son genre, avec une flexibilité inégalée, un contrôle et des capacités de pointe qui rivalisent avec les meilleurs modèles fermés. Le nouveau modèle de Meta permettra à la communauté de débloquer de nouveaux flux de travail, tels que la génération de données synthétiques et la distillation de modèles.
  • Meta déclare continuer à développer Llama pour en faire un système fournissant davantage de composants qui fonctionnent avec le modèle, y compris un système de référence. L'entreprise désire donner aux développeurs les outils nécessaires pour créer leurs propres agents personnalisés et de nouveaux types de comportements agentiques. Meta renforce cela avec de nouveaux outils de sécurité et de sûreté, y compris Llama Guard 3 et Prompt Guard, pour aider à construire de manière responsable. Meta lance également un appel à commentaires sur l’API Llama Stack, une interface standard qui permettra aux projets tiers d’exploiter plus facilement les modèles Llama.
  • L’écosystème est prêt à être lancé avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&connexions, qui proposeront des services dès le premier jour.
  • SNCF Gares & Connexions figure parmi les premiers partenaires à expérimenter llama3.1. Dans la continuité du dispositif autour de la connectivité présenté à Vivatech et STATION F, SNCF Gares & Connexions poursuit des expérimentations qui intègrent de nouvelles fonctionnalités dont le multilinguisme au service de l’information et de l’orientation des voyageurs en gare en français, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une expérience rapide et personnalisée est accessible également via un chatbot WhatsApp, qui permet d’apporter des informations en temps réel aux voyageurs par exemple sur leurs déplacements en gare.

Présentation de Llama 3.1

Llama 3.1 405B est le premier modèle disponible en libre accès qui rivalise avec les meilleurs modèles d’IA en termes de capacités de pointe dans les domaines de la connaissance générale, de l’orientation, des mathématiques, de l’utilisation d’outils et de la traduction multilingue. Avec la sortie du modèle 405B, Meta indique être prêt à stimuler l’innovation, avec des possibilités de croissance et d’exploration sans précédent. La société pense que la dernière génération de Llama va donner naissance à de nouvelles applications et à de nouveaux paradigmes de modélisation, y compris la génération de données synthétiques pour permettre l’amélioration et l’entraînement de modèles plus petits, ainsi que la distillation de modèles – une capacité qui n’a jamais été atteinte à cette échelle dans le domaine de l’open-source.

Dans le cadre de cette dernière version, Meta présente des versions améliorées des modèles 8B et 70B. Ceux-ci sont multilingues et disposent d’une longueur de contexte nettement plus importante (128 Ko), d’une utilisation d’outils de pointe et de capacités de raisonnement globalement plus solides. Cela permet aux derniers modèles de Meta de prendre en charge des cas d’utilisation avancés, tels que le résumé de textes longs, les agents conversationnels multilingues et les assistants de codage. Meta a également modifié sa licence, ce qui permet aux développeurs d’utiliser les résultats des modèles Llama, y compris le 405B, pour améliorer d’autres modèles. Fidèles à son engagement en faveur de l’open-source, Meta a mis dès aujourd’hui ces modèles à la disposition de la communauté pour le téléchargement sur llama.meta.com et Hugging Face, ainsi que pour le développement immédiat sur son vaste écosystème de plateformes partenaires.

Évaluations du modèle

Pour cette version, Meta a évalué les performances sur plus de 150 ensembles de données de référence couvrant un large éventail de langues. En outre, elle a réalisé des évaluations humaines approfondies qui comparent Llama 3.1 à des modèles concurrents dans des scénarios réels. L'évaluation expérimentale de Meta suggère que son modèle phare est compétitif par rapport aux principaux modèles de fondation sur une série de tâches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, les petits modèles de Meta sont compétitifs par rapport aux modèles closed et open-source qui ont un nombre similaire de paramètres.






Architecture du modèle

L’entraînement de Llama 3.1 405B sur plus de 15 trillions de tokens, le plus grand modèle de Meta à ce jour, a constitué un défi majeur. Pour permettre des entraînements à cette échelle et obtenir les résultats qui ont été obtenus dans un délai raisonnable, Meta a considérablement optimisé sa pile d’entraînement complète et poussé l’entraînement de son modèle sur plus de 16 000 GPU H100, faisant du 405B le premier modèle Llama entraîné à cette échelle.

Pour y remédier, Meta a fait des choix de conception qui visent à maintenir le processus de développement du modèle évolutif et simple.

  • Meta a opté pour une architecture de modèle de transformateur standard de décodeur uniquement avec des adaptations mineures, plutôt que pour un modèle de mélange d’experts (MoE) afin de maximiser la stabilité de l’apprentissage.
  • Meta a adopté une procédure itérative de post-entraînement, où chaque tour utilise un fine-tuning supervisé et une optimisation directe des préférences. Cela a permis de créer des données synthétiques de la plus haute qualité pour chaque cycle et d’améliorer les performances...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 08/02/2025 à 19:41
Citation Envoyé par dee phoenix Voir le message
Ça gagne des milliards en volant le pain au intelligences indépendantes
Ah ben ça, ils ne sont pas devenus aussi immensément riches en vivant une vie honnête et moralement juste, hein!
9  0 
Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 23/04/2025 à 12:09
Ces livres avaient une valeur économique puisqu'ils ont permis d'entraîner l'IA justement.
6  0 
Avatar de dee phoenix
Inactif https://www.developpez.com
Le 08/02/2025 à 19:13
Ça gagne des milliards en volant le pain au intelligences indépendantes
4  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 09/02/2025 à 16:06


Citation Envoyé par kain_tn Voir le message
Donc si quelqu'un te vole, ça ne te pose aucun problème, tant qu'il te paye ce qu'il t'a volé un jour futur??

On marche sur la tête, là...
Oui, je suis bien d'accord avec toi. Comment peut-on trouver normal que d'être volé, et d'être payé après, on ne sait pas quand. C'est plus que de marcher sur la tête, c'est ne plus avoir de tête

Et ça m'étonnerait fortement que dans quelques années, ces pilleurs du travail des autres, contactent les gens qu'ils ont volés, pour leur dire "Tiens, voilà 3€ parce qu'on a volé ton travail il y a dix ans".

Quelque soit ce que répond une IA, ce ne peut-être considérer que comme du plagiat. Il n'y a pas si longtemps, si un "simple" auteur se faisait piquer en ayant repris presque mot pour mot un paragraphe d'un livre précédent, il était condamné et sa réputation en prenait un coup.

Tous ceux qui ont "voler" ces datas, et vu l'énormité du vole, devraient être poursuivi et (très, très, très) lourdement condamnés. Ce ne serait que justice.

Si je vole un rayon de livres dans un magazin, et que je me fais piquer, j'aurai des ennuis je pense. Et si ma défense, c'est de dire: "c'est pour me former, et je payerais après", je ne pense pas que ça va le faire.

Il y a tout simplement un "deux poids, deux mesures", ce n'est pas nouveau... "Selon que vous soyez puissant ou misérable..."

BàV et Peace & Love.
3  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 23/04/2025 à 18:31
Citation Envoyé par Anthony Voir le message
"Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées
Si ça passe au niveau d'un verdict, ça va créer un précédant juridique intéressant: "Je n'ai rien à payer pour mon piratage de jeux, votre honneur, parce que les jeux ils étaient nuls!"

3  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 25/07/2024 à 11:22
Heu faut pas un budget cloud de folie pour faire tourner les dites IA même si elles sont open source ?
2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 09/02/2025 à 12:29
Citation Envoyé par dee phoenix Voir le message
Franchement,voler pour faire grossir un projet n'est pas mauvais en soi...Si par la suite tu paies ce que tu as voler

Prendre du recul pour prendre de l’élan
Donc si quelqu'un te vole, ça ne te pose aucun problème, tant qu'il te paye ce qu'il t'a volé un jour futur??

On marche sur la tête, là...
2  0 
Avatar de floyer
Membre éclairé https://www.developpez.com
Le 11/03/2026 à 0:15
Amusant… télécharger des livres protégés pour entrainer son IA ne pose pas de problème… mais quand un concepteur d’IA pompe les réponses d’une autre IA, cela en devient un !
2  0 
Avatar de Aiekick
Inactif https://www.developpez.com
Le 24/07/2024 à 11:25
C'est pas forcement le plus grand modèle qui est le meilleur.

La méthode d'entrainement est importante.

Arriver a faire pareil mais avec un model plus petit sera du domaine du faisable.
D'ailleurs déjà le cas si on prend GPT-4o mini

Zuckerberg a tendant a auto proclamer qu'il créer les meilleurs techno.
Il n'y a que lui qui y croit. (ca me rappelle assez les annonces chinoise en matière de spermatie quantique..)

quand tu es le meilleur tu n'as pas besoin de le dire, les gens le savent.
Si par contre tu le rabache dans la tete des gens c'est que tu es tres loin de l'etre.
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 10/02/2025 à 8:05
Citation Envoyé par dee phoenix Voir le message
Franchement,voler pour faire grossir un projet n'est pas mauvais en soi...Si par la suite tu paies ce que tu as voler
Ça marche peut-être dans le cas de quelqu'un qui utilise des logiciels craqués si plus tard il a gagne assez d'argent pour payer les licences des logiciels.
Par exemple un producteur de musique de n'importe quel genre (Tech House, Acid House, Ghetto House, Hard House, Minimal House, Hip House, House) ou quelqu'un qui créer des images ou des vidéos.

Y'en a surement qui ont commencé par utiliser des versions craquées d'Ableton Live ou de Cubase, ainsi que plein de VST et de packs de samples, puis qui ont gagné de l'argent avec leur travail et qui ont ensuite tout acheté.

Mais là on parle de Meta, pas d'un type au RSA.
===
Meta a utilisé des dizaines de millions de livres, donc ça aurait été compliqué d'acheter les versions numériques de toutes ces œuvres, parce qu'il y a peut-être aucun magasin qui propose autant de livres.
Je me demande si cette IA a utilisé des études de Sci-Hub pour s'entrainer.
1  0