
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a présenté les dernières conceptions de matériel d'IA ouvert à la communauté OCP. Ces innovations comprennent une nouvelle plateforme d'IA, des conceptions de racks ouverts de pointe et des tissus et composants de réseau avancés. En partageant ses conceptions, Meta souhaite inspirer la collaboration et favoriser l'innovation.
L'IA est au cœur des expériences qu'elle veut offrir aux personnes et aux entreprises, selon Meta. Cela comprend les innovations en matière de modélisation de l'IA pour optimiser et améliorer des fonctionnalités telles que Feed et son système de publicité. Avec le développement et la publication de nouveaux modèles d'IA avancés, cela nécessite de faire progresser l'infrastructure pour supporter less charges de travail d'IA nouvelles et émergentes.
Par exemple, Llama 3.1 405B, le plus grand modèle de Meta, est un transformateur dense avec 405B paramètres et une fenêtre de contexte allant jusqu'à 128k tokens. Pour entraîner un grand modèle de langage (LLM) de cette ampleur, avec plus de 15 trillions de tokens, Meta a dû procéder à des optimisations substantielles de l'ensemble de sa pile d'entraînement. L'infrastructure a fonctionné sur plus de 16 000 GPU NVIDIA H100, faisant de Llama 3.1 405B le premier modèle de la série Llama à être entraîné à une échelle aussi massive.
D'après Meta, les plus gros travaux d'IA avant Llama s'exécutaient sur 128 GPU NVIDIA A100. Mais les choses se sont rapidement accélérées. Au cours de l'année 2023, Meta a donc fait passer ses grappes d'entraînement de 1 000, 2 000, 4 000 à 16 000 GPU pour prendre en charge les charges de travail d'IA. Aujourd'hui, Meta entraînerait ses modèles sur deux grappes de 24 000 GPU.



Présentation de Catalina : Architecture ouverte pour l'infrastructure de l'IA
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a annoncé la sortie prochaine de Catalina, son nouveau rack haute puissance conçu pour les charges de travail d'IA. Catalina est basée sur la solution complète de rack de la plateforme NVIDIA Blackwell, en mettant l'accent sur la modularité et la flexibilité. Elle est conçue pour prendre en charge la dernière puce NVIDIA GB200 Grace Blackwell Superchip, ce qui lui permet de répondre aux exigences croissantes des infrastructures modernes d'IA.
Les besoins croissants en puissance des GPU signifient que les solutions de rack ouvertes doivent prendre en charge une capacité de puissance plus élevée. Avec Catalina, Meta introduit l'Orv3, un rack haute puissance (HPR) capable de supporter jusqu'à 140 kW.
La solution complète est refroidie par liquide et se compose d'une étagère d'alimentation qui supporte un plateau de calcul, un plateau de commutation, l'Orv3 HPR, le commutateur de tissu Wedge 400, un commutateur de gestion, une unité de sauvegarde de la batterie et un contrôleur de gestion de rack.

La plateforme Grand Teton prend désormais en charge les accélérateurs AMD
En 2022, Meta a annoncé Grand Teton, sa plateforme d'IA de nouvelle génération (la suite de la plateforme Zion-EX). Grand Teton est conçue avec une capacité de calcul pour répondre aux exigences des charges de travail liées à la mémoire et à la bande passante, telles que les modèles de recommandation d'apprentissage profond (DLRM) de Meta, ainsi qu'aux charges de travail liées au calcul, comme la compréhension de contenu.
Lors de l'OCP Global Summit 2024, Meta a également annoncé étendre la plateforme Grand Teton pour supporter l'AMD Instinct MI300X et contribuer à cette nouvelle version à l'OCP. Comme ses prédécesseurs, cette nouvelle version de Grand Teton présente une conception de système monolithique avec des interfaces d'alimentation, de contrôle, de calcul et de structure entièrement intégrées. Ce haut niveau d'intégration simplifie le déploiement du système, permettant une mise à l'échelle rapide avec une fiabilité accrue pour les charges de travail d'inférence d'IA à grande échelle.
Outre la prise en charge d'une gamme de conceptions d'accélérateurs, incluant désormais l'AMD Instinct MI300x, Grand Teton offre une capacité de calcul nettement plus importante, permettant une convergence plus rapide sur un ensemble plus large de poids. Cette capacité est complétée par une mémoire élargie permettant de stocker et d'exécuter localement des modèles plus importants, ainsi que par une bande passante réseau accrue permettant d'augmenter efficacement la taille des grappes d'entraînement.
Réseau ouvert, désagrégé et programmé
Le développement d'un backend réseau ouvert et indépendant des fournisseurs jouera un rôle important à l'avenir, selon Meta, à mesure qu'ils continuent à améliorer les performances des clusters d'apprentissage de l'IA. La désagrégation du réseau permettrait de travailler avec des fournisseurs de toute l'industrie pour concevoir des systèmes innovants, évolutifs, flexibles et efficaces.

Meta et Microsoft : collaborer ensemble pour l'innovation ouverte
Meta et Microsoft ont un partenariat de longue date au sein de l'OCP, qui a commencé avec le développement de l'interface d'abstraction de commutateur (SAI) pour les centres de données en 2018. Au fil des ans, ils ont contribué ensemble à des initiatives telles que la norme Open Accelerator Module (OAM) et la normalisation des disques SSD, mettant en évidence l'engagement commun à faire progresser l'innovation ouverte.
Meta annonce poursuivre sa collaboration avec Microsoft en se concentrant sur Mount Diablo, une nouvelle baie d'alimentation désagrégée. Il s'agit d'une solution de pointe comprenant une unité évolutive de 400 VDC qui améliore l'efficacité et l'évolutivité. Cette conception innovante permet d'augmenter le nombre d'accélérateurs d'IA par rack informatique, ce qui fait progresser de manière significative l'infrastructure d'IA.
L'avenir ouvert pour l'infrastructure de l'IA
Meta partage sa vision du futur pour l'infrastructure de l'IA :

Et vous ?


Voir aussi :




Vous avez lu gratuitement 1 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.