Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a présenté les dernières conceptions de matériel d'IA ouvert à la communauté OCP. Ces innovations comprennent une nouvelle plateforme d'IA, des conceptions de racks ouverts de pointe et des tissus et composants de réseau avancés. En partageant ses conceptions, Meta souhaite inspirer la collaboration et favoriser l'innovation.L'IA est au cœur des expériences qu'elle veut offrir aux personnes et aux entreprises, selon Meta. Cela comprend les innovations en matière de modélisation de l'IA pour optimiser et améliorer des fonctionnalités telles que Feed et son système de publicité. Avec le développement et la publication de nouveaux modèles d'IA avancés, cela nécessite de faire progresser l'infrastructure pour supporter less charges de travail d'IA nouvelles et émergentes.
Par exemple, Llama 3.1 405B, le plus grand modèle de Meta, est un transformateur dense avec 405B paramètres et une fenêtre de contexte allant jusqu'à 128k tokens. Pour entraîner un grand modèle de langage (LLM) de cette ampleur, avec plus de 15 trillions de tokens, Meta a dû procéder à des optimisations substantielles de l'ensemble de sa pile d'entraînement. L'infrastructure a fonctionné sur plus de 16 000 GPU NVIDIA H100, faisant de Llama 3.1 405B le premier modèle de la série Llama à être entraîné à une échelle aussi massive.
D'après Meta, les plus gros travaux d'IA avant Llama s'exécutaient sur 128 GPU NVIDIA A100. Mais les choses se sont rapidement accélérées. Au cours de l'année 2023, Meta a donc fait passer ses grappes d'entraînement de 1 000, 2 000, 4 000 à 16 000 GPU pour prendre en charge les charges de travail d'IA. Aujourd'hui, Meta entraînerait ses modèles sur deux grappes de 24 000 GPU.
Présentation de Catalina : Architecture ouverte pour l'infrastructure de l'IA
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a annoncé la sortie prochaine de Catalina, son nouveau rack haute puissance conçu pour les charges de travail d'IA. Catalina est basée sur la solution complète de rack de la plateforme NVIDIA Blackwell, en mettant l'accent sur la modularité et la flexibilité. Elle est conçue pour prendre en charge la dernière puce NVIDIA GB200 Grace Blackwell Superchip, ce qui lui permet de répondre aux exigences croissantes des infrastructures modernes d'IA.
Les besoins croissants en puissance des GPU signifient que les solutions de rack ouvertes doivent prendre en charge une capacité de puissance plus élevée. Avec Catalina, Meta introduit l'Orv3, un rack haute puissance (HPR) capable de supporter jusqu'à 140 kW.
La solution complète est refroidie par liquide et se compose d'une étagère d'alimentation qui supporte un plateau de calcul, un plateau de commutation, l'Orv3 HPR, le commutateur de tissu Wedge 400, un commutateur de gestion, une unité de sauvegarde de la batterie et un contrôleur de gestion de rack.
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
