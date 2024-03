Llama 3 : son impact sur l'avenir de l'IA

Les chercheurs de Meta tentent d'assouplir le modèle afin qu'il puisse au moins fournir un contexte à une question qu'il juge controversée. Cet effort, qui renforcerait l'utilité du nouveau LLM de Meta, intervient alors que son rival Google a mis en pause la fonction de génération d'images de son IA Gemini après qu'elle ait produit des images historiques parfois inexactes.Le Llama 2 de Meta, qui alimente les bots de conversation sur ses plateformes de médias sociaux, refuse de répondre à des questions moins controversées telles que comment faire une farce à un ami, gagner une guerre ou tuer un moteur de voiture, selon les tests effectués par la publication. En revanche, Llama 3 serait capable de comprendre des questions telles que "", c'est-à-dire comment l'éteindre plutôt que de mettre fin à sa vie, selon le rapport, qui cite de multiples sources.Meta prévoit également de nommer une personne en interne dans les semaines à venir pour superviser le ton et la formation à la sécurité dans le cadre de ses efforts pour rendre les réponses du modèle plus nuancées, selon le rapport.En janvier 2024, Mark Zuckerberg, PDG de Meta, a annoncé dans une vidéo Instagram que Meta AI avait récemment commencé à entraîner le Llama 3. Cette dernière génération de la famille LLaMa de grands modèles de langage (LLM) fait suite aux modèles Llama 1 (stylisés à l'origine comme "LLaMA") publiés en février 2023 et aux modèles Llama 2 publiés en juillet.Bien que des détails spécifiques (comme la taille des modèles ou les capacités multimodales) n'aient pas encore été annoncés, Zuckerberg a indiqué l'intention de Meta de continuer à mettre en open-source les modèles de base Llama.Découvrez ce que l'on sait actuellement sur le Llama 3 et comment il pourrait affecter la prochaine vague d'avancées dans les modèles d'IA générative.Aucune date de sortie n'a été annoncée, mais il convient de noter que l'entraînement du Llama 1 a duré trois mois et celui du Llama 2 environ six mois. Si la prochaine génération de modèles suit un calendrier similaire, elle devrait sortir aux alentours de juillet 2024.Cela dit, il est toujours possible que Meta accorde un délai supplémentaire pour affiner les réglages et garantir un alignement correct des modèles. L'amélioration de l'accès aux modèles d'IA générative bénéficie à plus d'entités, autres que les entreprises, les startups et les amateurs : à mesure que les modèles open source deviennent plus puissants, il est nécessaire de prendre davantage de précautions pour réduire le risque d'utilisation des modèles à des fins malveillantes par des acteurs malveillants. Dans sa vidéo d'annonce, Mark Zuckerberg a réitéré l'engagement de Meta à "".Alors que Meta a donné accès aux modèles Llama 1 gratuitement, au cas par cas, à des institutions de recherche pour des utilisations exclusivement non commerciales, le code et les poids des modèles Llama 2 ont été publiés avec une licence ouverte permettant une utilisation commerciale pour toute organisation ayant moins de 700 millions d'utilisateurs actifs mensuels. Bien que la question de savoir si la licence de Llama 2 répond à la définition technique stricte de "open-source", elle est généralement désignée comme telle. Rien n'indique que Llama 3 sera publié différemment.Dans son annonce et dans la presse qui a suivi, Mark Zuckerberg a réitéré l'engagement de Meta en faveur des licences ouvertes et de la démocratisation de l'accès à l'intelligence artificielle (IA). "", a déclaré Zuckerberg dans une interview. "".La vidéo d'annonce de Mark Zuckerberg met l'accent sur l'objectif à long terme de Meta, à savoir la construction d'une AGI, un stade de développement théorique de l'IA auquel les modèles feraient preuve d'une intelligence holistique égale (ou supérieure) à celle de l'homme.", déclare Zuckerberg. "Cela ne signifie pas nécessairement que le Llama 3 atteindra (ou même tentera d'atteindre) l'AGI. Mais cela signifie que Meta aborde délibérément le développement de son LLM et d'autres recherches sur l'IA d'une manière qui, selon eux, pourrait aboutir à l'AGI.Une tendance émergente en matière d'intelligence artificielle est l'IA multimodale : des modèles qui peuvent comprendre et fonctionner dans différents formats de données (ou modalités). Plutôt que de développer des modèles distincts pour traiter le texte, le code, l'audio, l'image ou même les données vidéo, les nouveaux modèles de pointe, tels que Gemini de Google ou GPT-4 d'OpenAI, et les nouveaux modèles open source tels que LLaVa (Large Language and Vision Assistant), Adept ou Qwen-VL, peuvent se déplacer de manière transparente entre les tâches de vision par ordinateur et de traitement du langage naturel (NLP).Si Mark Zuckerberg a confirmé que le Llama 3, comme le Llama 2, inclura des capacités de génération de code, il n'a pas explicitement abordé d'autres capacités multimodales. Il a toutefois expliqué comment il envisageait l'interaction entre l'IA et le Metaverse dans sa vidéo d'annonce de la Llama 3 : "", a déclaré Zuckerberg, en référence aux lunettes intelligentes Ray-Ban de Meta. "".Cela semble impliquer que les plans de Meta pour les modèles Llama, que ce soit dans la prochaine version Llama 3 ou dans les générations suivantes, incluent l'intégration de données visuelles et audio en plus des données de texte et de code que les LLMs traitent déjà.Cela semble également être une évolution naturelle dans la poursuite de l'AGI. "", a-t-il déclaré lors de son entretien. "M. Zuckerberg a également annoncé des investissements substantiels dans l'infrastructure de formation. D'ici à la fin 2024, Meta a l'intention de disposer d'environ 350 000 GPU NVIDIA H100, ce qui porterait le total des ressources de calcul disponibles de Meta à "" si l'on inclut les GPU dont ils disposent déjà. Seul Microsoft possède actuellement un stock comparable de puissance de calcul.On peut donc raisonnablement s'attendre à ce que le Llama 3 offre des performances nettement supérieures à celles des modèles Llama 2, même si les modèles Llama 3 ne sont pas plus grands que leurs prédécesseurs. Comme l'a supposé Deepmind dans un article publié en mars 2022 et démontré par la suite par les modèles de Meta (ainsi que d'autres modèles open source, comme ceux de la société française Mistral), l'entraînement de modèles plus petits sur un plus grand nombre de données permet d'obtenir de meilleures performances que l'entraînement de modèles plus grands avec moins de données. Llama 2 a été proposé dans les mêmes tailles que les modèles Llama 1 - plus précisément, dans des variantes avec 7 milliards, 14 milliards et 70 milliards de paramètres - mais il a été pré-entraîné sur 40 % de données en plus.Bien que la taille des modèles Llama 3 n'ait pas encore été annoncée, il est probable qu'ils poursuivront la tendance à l'augmentation des performances dans les modèles de 7 à 70 milliards de paramètres qui a été établie dans les générations précédentes. Les récents investissements de Meta dans l'infrastructure permettront certainement un pré-entraînement encore plus robuste pour les modèles de toute taille.Llama 2 a également doublé la longueur du contexte de Llama 1, ce qui signifie que Llama 2 peut "se souvenir" de deux fois plus de tokens de contexte pendant l'inférence, c'est-à-dire pendant la génération du contexte ou un échange continu avec un chatbot. Il est possible, bien qu'incertain, que le Llama 3 apporte de nouveaux progrès à cet égard.Bien que les modèles LLaMA et Llama 2, plus petits, aient atteint ou dépassé les performances du modèle GPT-3, plus grand et doté de 175 milliards de paramètres, dans le cadre de certains tests de référence, ils n'ont pas atteint les pleines capacités des modèles GPT-3.5 et GPT-4 proposés dans ChatGPT.Avec ses nouvelles générations de modèles, Meta semble vouloir apporter des performances de pointe au monde de l'open source. "", a-t-il déclaré. "Les nouveaux modèles de fondation s'accompagnent de nouvelles opportunités d'avantages concurrentiels grâce à des apps, des chatbots, des flux de travail et des automatisations améliorés. Garder une longueur d'avance sur les développements émergents est le meilleur moyen d'éviter d'être laissé pour compte : adopter de nouveaux outils donne aux organisations les moyens de différencier leurs offres et d'offrir la meilleure expérience aux clients comme aux employés.Grâce à son partenariat avec HuggingFace, IBM watsonx™ prend en charge de nombreux modèles de fondation open source à la pointe de l'industrie, notamment le Llama 2-chat de Meta. Son équipe mondiale de plus de 20 000 experts en IA peut aider votre entreprise à identifier les outils, les technologies et les techniques les mieux adaptés à vos besoins pour garantir une mise à l'échelle efficace et responsable.Sources : Mark Zuckerberg, The Information, IBMPensez-vous que Llama3 soit crédible ou pertinent ?Quel est votre avis sur le sujet ?