La vision de Meta sur les matériels d'IA ouverts : engagement en faveur de l'IA open source avec Llama et introduction de Catalina, une architecture ouverte pour l'infrastructure de l'IA

Le 16 octobre 2024 à 18:43, par Jade Emy

66PARTAGES

Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a présenté les dernières conceptions de matériel d'IA ouvert à la communauté OCP. Ces innovations comprennent une nouvelle plateforme d'IA, des conceptions de racks ouverts de pointe et des tissus et composants de réseau avancés. En partageant ses conceptions, Meta souhaite inspirer la collaboration et favoriser l'innovation.

L'IA est au cœur des expériences qu'elle veut offrir aux personnes et aux entreprises, selon Meta. Cela comprend les innovations en matière de modélisation de l'IA pour optimiser et améliorer des fonctionnalités telles que Feed et son système de publicité. Avec le développement et la publication de nouveaux modèles d'IA avancés, cela nécessite de faire progresser l'infrastructure pour supporter less charges de travail d'IA nouvelles et émergentes.

Par exemple, Llama 3.1 405B, le plus grand modèle de Meta, est un transformateur dense avec 405B paramètres et une fenêtre de contexte allant jusqu'à 128k tokens. Pour entraîner un grand modèle de langage (LLM) de cette ampleur, avec plus de 15 trillions de tokens, Meta a dû procéder à des optimisations substantielles de l'ensemble de sa pile d'entraînement. L'infrastructure a fonctionné sur plus de 16 000 GPU NVIDIA H100, faisant de Llama 3.1 405B le premier modèle de la série Llama à être entraîné à une échelle aussi massive.

D'après Meta, les plus gros travaux d'IA avant Llama s'exécutaient sur 128 GPU NVIDIA A100. Mais les choses se sont rapidement accélérées. Au cours de l'année 2023, Meta a donc fait passer ses grappes d'entraînement de 1 000, 2 000, 4 000 à 16 000 GPU pour prendre en charge les charges de travail d'IA. Aujourd'hui, Meta entraînerait ses modèles sur deux grappes de 24 000 GPU.

Envoyé par Meta

Nous ne nous attendons pas à ce que cette trajectoire ascendante des clusters d'IA se ralentisse de sitôt. En fait, nous nous attendons à ce que la quantité de calcul nécessaire à l'entraînement à l'IA augmente considérablement par rapport à la situation actuelle.

La création de clusters d'IA ne se limite pas aux GPU. Le réseau et la bande passante jouent un rôle important pour garantir les performances des clusters. Les systèmes se composent d'un système de calcul HPC étroitement intégré et d'un réseau de calcul isolé à large bande passante qui relie tous les GPU et accélérateurs spécifiques à un domaine. Cette conception est nécessaire pour répondre aux besoins d'injection et relever les défis posés par le besoin de bande passante de bissection.

Envoyé par Meta

Au cours des prochaines années, nous prévoyons une bande passante d'injection plus importante, de l'ordre d'un téraoctet par seconde, par accélérateur, avec une bande passante de bissection normalisée égale. Cela représente une croissance de plus d'un ordre de grandeur par rapport aux réseaux actuels !

Pour soutenir cette croissance, il faut une structure de réseau haute performance, multi-niveaux, non bloquante, capable d'utiliser un contrôle de congestion moderne pour se comporter de manière prévisible en cas de forte charge. Cela permettra d'exploiter pleinement la puissance dess clusters d'IA et de garantir qu'ils continuent à fonctionner de manière optimale à mesure que les limites de l'IA sont repoussées.

Envoyé par Meta

La mise à l'échelle de l'IA à cette vitesse nécessite des solutions matérielles ouvertes. Le développement de nouvelles architectures, de nouveaux réseaux et de nouvelles conceptions de systèmes est plus efficace et a plus d'impact lorsqu'il repose sur des principes d'ouverture. En investissant dans du matériel ouvert, nous libérons tout le potentiel de l'IA et favorisons l'innovation permanente dans ce domaine.

Présentation de Catalina : Architecture ouverte pour l'infrastructure de l'IA

Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a annoncé la sortie prochaine de Catalina, son nouveau rack haute puissance conçu pour les charges de travail d'IA. Catalina est basée sur la solution complète de rack de la plateforme NVIDIA Blackwell, en mettant l'accent sur la modularité et la flexibilité. Elle est conçue pour prendre en charge la dernière puce NVIDIA GB200 Grace Blackwell Superchip, ce qui lui permet de répondre aux exigences croissantes des infrastructures modernes d'IA.

Les besoins croissants en puissance des GPU signifient que les solutions de rack ouvertes doivent prendre en charge une capacité de puissance plus élevée. Avec Catalina, Meta introduit l'Orv3, un rack haute puissance (HPR) capable de supporter jusqu'à 140 kW.

La solution complète est refroidie par liquide et se compose d'une étagère d'alimentation qui supporte un plateau de calcul, un plateau de commutation, l'Orv3 HPR, le commutateur de tissu Wedge 400, un commutateur de gestion, une unité de sauvegarde de la batterie et un contrôleur de gestion de rack.

Envoyé par Meta

Nous souhaitons que la conception modulaire de Catalina permette à d'autres de personnaliser le rack pour répondre à leurs charges de travail spécifiques en matière d'intelligence artificielle, tout en tirant parti des normes industrielles existantes et émergentes.

La plateforme Grand Teton prend désormais en charge les accélérateurs AMD

En 2022, Meta a annoncé Grand Teton, sa plateforme d'IA de nouvelle génération (la suite de la plateforme Zion-EX). Grand Teton est conçue avec une capacité de calcul pour répondre aux exigences des charges de travail liées à la mémoire et à la bande passante, telles que les modèles de recommandation d'apprentissage profond (DLRM) de Meta, ainsi qu'aux charges de travail liées au calcul, comme la compréhension de contenu.

Lors de l'OCP Global Summit 2024, Meta a également annoncé étendre la plateforme Grand Teton pour supporter l'AMD Instinct MI300X et contribuer à cette nouvelle version à l'OCP. Comme ses prédécesseurs, cette nouvelle version de Grand Teton présente une conception de système monolithique avec des interfaces d'alimentation, de contrôle, de calcul et de structure entièrement intégrées. Ce haut niveau d'intégration simplifie le déploiement du système, permettant une mise à l'échelle rapide avec une fiabilité accrue pour les charges de travail d'inférence d'IA à grande échelle.

Outre la prise en charge d'une gamme de conceptions d'accélérateurs, incluant désormais l'AMD Instinct MI300x, Grand Teton offre une capacité de calcul nettement plus importante, permettant une convergence plus rapide sur un ensemble plus large de poids. Cette capacité est complétée par une mémoire élargie permettant de stocker et d'exécuter localement des modèles plus importants, ainsi que par une bande passante réseau accrue permettant d'augmenter efficacement la taille des grappes d'entraînement.

Réseau ouvert, désagrégé et programmé

Le développement d'un backend réseau ouvert et indépendant des fournisseurs jouera un rôle important à l'avenir, selon Meta, à mesure qu'ils continuent à améliorer les performances des clusters d'apprentissage de l'IA. La désagrégation du réseau permettrait de travailler avec des fournisseurs de toute l'industrie pour concevoir des systèmes innovants, évolutifs, flexibles et efficaces.

Envoyé par Meta

Notre nouveau Disaggregated Scheduled Fabric (DSF) pour nos clusters d'IA de nouvelle génération offre plusieurs avantages par rapport à nos commutateurs existants. En ouvrant notre réseau, nous pouvons surmonter les limites d'échelle, les options d'approvisionnement en composants et la densité de puissance. La DSF est alimentée par la norme ouverte OCP-SAI et FBOSS, le système d'exploitation de réseau propre à Meta pour contrôler les commutateurs de réseau. Il prend également en charge une interface RoCE ouverte et standard basée sur Ethernet pour les terminaux et les accélérateurs de plusieurs GPUS et NICS de plusieurs fournisseurs différents, y compris nos partenaires NVIDIA, Broadcom et AMD.

En plus du DSF, nous avons également développé et construit de nouveaux commutateurs de tissu 51T basés sur des ASIC Broadcom et Cisco. Enfin, nous partageons notre nouveau FBNIC, un nouveau module NIC qui contient notre premier ASIC de réseau Meta-design. Afin de répondre aux besoins croissants de notre IA.

Meta et Microsoft : collaborer ensemble pour l'innovation ouverte

Meta et Microsoft ont un partenariat de longue date au sein de l'OCP, qui a commencé avec le développement de l'interface d'abstraction de commutateur (SAI) pour les centres de données en 2018. Au fil des ans, ils ont contribué ensemble à des initiatives telles que la norme Open Accelerator Module (OAM) et la...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La vision de Meta sur les matériels d'IA ouverts : engagement en faveur de l'IA open source avec Llama et introduction de Catalina, une architecture ouverte pour l'infrastructure de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?