IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La vision de Meta sur les matériels d'IA ouverts : engagement en faveur de l'IA open source avec Llama et introduction de Catalina, une architecture ouverte pour l'infrastructure de l'IA

Le , par Jade Emy

92PARTAGES

4  0 
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a présenté les dernières conceptions de matériel d'IA ouvert à la communauté OCP. Ces innovations comprennent une nouvelle plateforme d'IA, des conceptions de racks ouverts de pointe et des tissus et composants de réseau avancés. En partageant ses conceptions, Meta souhaite inspirer la collaboration et favoriser l'innovation.

L'IA est au cœur des expériences qu'elle veut offrir aux personnes et aux entreprises, selon Meta. Cela comprend les innovations en matière de modélisation de l'IA pour optimiser et améliorer des fonctionnalités telles que Feed et son système de publicité. Avec le développement et la publication de nouveaux modèles d'IA avancés, cela nécessite de faire progresser l'infrastructure pour supporter less charges de travail d'IA nouvelles et émergentes.

Par exemple, Llama 3.1 405B, le plus grand modèle de Meta, est un transformateur dense avec 405B paramètres et une fenêtre de contexte allant jusqu'à 128k tokens. Pour entraîner un grand modèle de langage (LLM) de cette ampleur, avec plus de 15 trillions de tokens, Meta a dû procéder à des optimisations substantielles de l'ensemble de sa pile d'entraînement. L'infrastructure a fonctionné sur plus de 16 000 GPU NVIDIA H100, faisant de Llama 3.1 405B le premier modèle de la série Llama à être entraîné à une échelle aussi massive.

D'après Meta, les plus gros travaux d'IA avant Llama s'exécutaient sur 128 GPU NVIDIA A100. Mais les choses se sont rapidement accélérées. Au cours de l'année 2023, Meta a donc fait passer ses grappes d'entraînement de 1 000, 2 000, 4 000 à 16 000 GPU pour prendre en charge les charges de travail d'IA. Aujourd'hui, Meta entraînerait ses modèles sur deux grappes de 24 000 GPU.

Citation Envoyé par Meta
Nous ne nous attendons pas à ce que cette trajectoire ascendante des clusters d'IA se ralentisse de sitôt. En fait, nous nous attendons à ce que la quantité de calcul nécessaire à l'entraînement à l'IA augmente considérablement par rapport à la situation actuelle.
La création de clusters d'IA ne se limite pas aux GPU. Le réseau et la bande passante jouent un rôle important pour garantir les performances des clusters. Les systèmes se composent d'un système de calcul HPC étroitement intégré et d'un réseau de calcul isolé à large bande passante qui relie tous les GPU et accélérateurs spécifiques à un domaine. Cette conception est nécessaire pour répondre aux besoins d'injection et relever les défis posés par le besoin de bande passante de bissection.

Citation Envoyé par Meta
Au cours des prochaines années, nous prévoyons une bande passante d'injection plus importante, de l'ordre d'un téraoctet par seconde, par accélérateur, avec une bande passante de bissection normalisée égale. Cela représente une croissance de plus d'un ordre de grandeur par rapport aux réseaux actuels !
Pour soutenir cette croissance, il faut une structure de réseau haute performance, multi-niveaux, non bloquante, capable d'utiliser un contrôle de congestion moderne pour se comporter de manière prévisible en cas de forte charge. Cela permettra d'exploiter pleinement la puissance dess clusters d'IA et de garantir qu'ils continuent à fonctionner de manière optimale à mesure que les limites de l'IA sont repoussées.

Citation Envoyé par Meta
La mise à l'échelle de l'IA à cette vitesse nécessite des solutions matérielles ouvertes. Le développement de nouvelles architectures, de nouveaux réseaux et de nouvelles conceptions de systèmes est plus efficace et a plus d'impact lorsqu'il repose sur des principes d'ouverture. En investissant dans du matériel ouvert, nous libérons tout le potentiel de l'IA et favorisons l'innovation permanente dans ce domaine.

Présentation de Catalina : Architecture ouverte pour l'infrastructure de l'IA

Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a annoncé la sortie prochaine de Catalina, son nouveau rack haute puissance conçu pour les charges de travail d'IA. Catalina est basée sur la solution complète de rack de la plateforme NVIDIA Blackwell, en mettant l'accent sur la modularité et la flexibilité. Elle est conçue pour prendre en charge la dernière puce NVIDIA GB200 Grace Blackwell Superchip, ce qui lui permet de répondre aux exigences croissantes des infrastructures modernes d'IA.

Les besoins croissants en puissance des GPU signifient que les solutions de rack ouvertes doivent prendre en charge une capacité de puissance plus élevée. Avec Catalina, Meta introduit l'Orv3, un rack haute puissance (HPR) capable de supporter jusqu'à 140 kW.

La solution complète est refroidie par liquide et se compose d'une étagère d'alimentation qui supporte un plateau de calcul, un plateau de commutation, l'Orv3 HPR, le commutateur de tissu Wedge 400, un commutateur de gestion, une unité de sauvegarde de la batterie et un contrôleur de gestion de rack.

Citation Envoyé par Meta
Nous souhaitons que la conception modulaire de Catalina permette à d'autres de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de
https://www.developpez.com
Le 18/10/2024 à 15:59

En 2022, Meta a annoncé Grand Teton, sa plateforme d'IA de nouvelle génération (la suite de la plateforme Zion-EX).
Meta annonce poursuivre sa collaboration avec Microsoft en se concentrant sur Mount Diablo, une nouvelle baie d'alimentation désagrégée.

#feay:ça nous rapproche de Daxpitcheeaasáao, tout ça ...
0  0