Comment Meta entraîne les grands modèles de langage en permettant aux chercheurs d'utiliser PyTorch et d'autres nouveaux développements open-source

Le 13 juin 2024 à 17:10, par Jade Emy

355PARTAGES

Meta partage ses méthodes pour l'entraînement des grands modèles de langage à l'échelle, permettant aux chercheurs d'utiliser PyTorch et d'autres nouveaux développements open-source. Cela facilite également le développement rapide de la recherche à la production.

Meta AI est la division de Meta, anciennement Facebook, qui développe des technologies d'intelligence artificielle. Meta AI se considère comme un laboratoire de recherche universitaire, axé sur la production de connaissances pour la communauté de l'IA. Meta a adopté une stratégie des poids ouverts pour améliorer la sécurité des modèles, la vitesse d'itération, augmenter l'adoption parmi les développeurs et les chercheurs, et devenir la norme de l'industrie.

À partir de février 2023, Meta a publié sa famille de grands modèles de langage (LLM), appellé Llama (acronyme de Large Language Model Meta AI). Un LLM est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul.

Alors que les chercheurs se concentrent sur la résolution de problèmes de plus en plus complexes pour le développement de l'IA, l'un des changements les plus significatifs et les plus difficiles connus à ce jour est l'ampleur même des calculs nécessaires pour entraîner les LLM. Meta vient de publier comment elle entraîne les grands modèles de langage à l'échelle.

Les défis de la formation de modèles à grande échelle

Traditionnellement, l'entraînement d'un modèle d'IA impliquait l'entraînement d'un nombre massif de modèles qui nécessitaient un nombre relativement faible de GPU. C'était le cas pour les modèles de recommandation de Meta (les modèles de flux et de classement) qui ingéraient de grandes quantités d'informations pour faire des recommandations précises qui alimentent la plupart de ses produits.

Avec l'avènement de l'IA générative (GenAI), Meta a constaté une évolution vers des tâches moins nombreuses, mais incroyablement volumineuses. La prise en charge de l'IA générative à grande échelle a nécessité de repenser la manière dont les logiciels, le matériel et l'infrastructure réseau s'articulent. À mesure qu'on augmente le nombre de GPU dans un travail, la probabilité d'une interruption due à une défaillance matérielle augmente également.

De plus, tous ces GPU doivent communiquer sur le même réseau à grande vitesse pour fonctionner de manière optimale. Cela souligne l'importance de quatre facteurs :

La fiabilité du matériel : Il est important de s'assurer que le matériel est fiable. Il faut minimiser les risques qu'une défaillance matérielle interrompe un travail de formation. Cela implique des tests rigoureux et des mesures de contrôle de la qualité, ainsi qu'une automatisation permettant de détecter rapidement les problèmes et d'y remédier.
Récupération rapide en cas de panne : Malgré tous les efforts, des pannes matérielles peuvent se produire et se produisent effectivement. Dans ce cas, ilsil faut être en mesure de récupérer rapidement. Cela implique une réduction de la charge de travail liée à la replanification et une réinitialisation rapide de la formation.
Préservation efficace de l'état de la formation : En cas de défaillance, il faut être en mesure de reprendre là où on s'est arrêté. Cela signifie qu'il faut régulièrement vérifier l'état d'entraînement et stocker et récupérer efficacement les données d'entraînement.
Connectivité optimale entre les GPU : L'apprentissage de modèles à grande échelle implique le transfert de grandes quantités de données entre les GPU de manière synchronisée. Un échange de données lent entre un sous-ensemble de GPU peut aggraver et ralentir l'ensemble du travail. La résolution de ce problème nécessite une infrastructure réseau robuste et à haut débit, ainsi que des protocoles et des algorithmes de transfert de données efficaces.

Innover dans l'ensemble de l'infrastructure

Il est important de perfectionner chaque couche de l'infrastructure en raison des exigences de la GenAI à grande échelle. Cela a entraîné des développements dans un large éventail de domaines.

Logiciel de formation

Meta permet aux chercheurs d'utiliser PyTorch et d'autres nouveaux développements open source, facilitant un développement extrêmement rapide de la recherche à la production. Cela inclut le développement de nouveaux algorithmes et de nouvelles techniques pour un entraînement efficace à grande échelle et l'intégration de nouveaux outils et cadres logiciels dans son infrastructure.

Planification

Une programmation efficace permet de garantir une utilisation optimale des ressources. Cela implique des algorithmes sophistiqués capables d'allouer des ressources en fonction des besoins des différents travaux et une programmation dynamique pour s'adapter à l'évolution de la charge de travail.

Matériel

Il faut un matériel très performant pour répondre aux exigences de calcul de la formation de modèles à grande échelle. Au-delà de la taille et de l'échelle, de nombreuses configurations et caractéristiques matérielles doivent être optimisées pour la GenAI. Étant donné que les délais de développement du matériel sont traditionnellement longs, Meta a adapter le matériel existant et ils ont exploré diverses dimensions, notamment la puissance, la capacité et la vitesse du HBM, et les E/S.

Meta a également pivoté en modifiant la plateforme Grand Teton qui a été développée avec des GPU NVIDIA H100, en augmentant le TDP des GPU à 700 W et en passant à HBM3 sur les GPU. Avec le manque de temps pour modifier l'infrastructure de refroidissement, ils ont dû rester dans un environnement refroidi par air. Les conceptions mécaniques et thermiques ont dû être modifiées en conséquence, ce qui a déclenché un cycle de validation pour soutenir un déploiement à grande échelle.

Tous ces changements liés au matériel ont constitué un véritable défi, car Meta a dû trouver une solution adaptée aux contraintes de ressources existantes, avec une très faible marge de manœuvre pour effectuer des changements et respecter un calendrier serré.

Déploiement du centre de données

Une fois le GPU et le système choisis, la tâche de les placer dans un centre de données pour une utilisation optimale des ressources (alimentation, refroidissement, réseau, etc.) nécessite de revoir les compromis faits pour d'autres types de charges de travail. Les infrastructures d'alimentation et de refroidissement des centres de données ne peuvent pas être modifiées rapidement (ou facilement) et Meta a dû trouver une disposition optimale permettant une capacité de calcul maximale dans un centre de données. Pour ce faire, il a fallu déplacer les services d'appui, tels que les lecteurs, hors de la salle de données et placer autant de racks de GPU que possible pour maximiser la puissance et la capacité du réseau afin d'obtenir la plus grande densité de calcul avec la plus grande grappe de réseaux.

Fiabilité

Selon Meta, ils ont planifier la détection et la correction afin de minimiser les temps d'arrêt en cas de défaillance du matériel. Le nombre de pannes augmente avec la taille de la grappe, et lorsqu'un travail s'étend sur toute la grappe, il est nécessaire de conserver une capacité de réserve suffisante pour redémarrer le travail dès que possible. En outre, ils surveillent les défaillances et peuvent parfois prendre des mesures préventives pour limiter les temps d'arrêt.

Meta commente :

Les modes de défaillance les plus fréquents que nous avons observés sont les suivants :

Les GPU tombent : Dans ce cas, les GPU ne sont pas détectés par l'hôte sur PCIe. Il y a plusieurs raisons à cela, mais ce mode de défaillance est plus fréquent au début de la vie du serveur et se résorbe au fur et à mesure qu'il vieillit.
DRAM & SRAM UCE : les erreurs non corrigibles sont courantes dans les mémoires, et nous surveillons et identifions les récidivistes, nous effectuons un suivi par rapport aux seuils, et nous lançons des RMA lorsque les taux d'erreur dépassent les seuils du fournisseur.
Câble réseau HW : Dans la catégorie générale des serveurs inaccessibles, ces défaillances sont également observées le plus souvent au début de la vie du serveur.

Réseau

L'entraînement de modèles à grande échelle implique le transfert rapide de grandes quantités de données entre les GPU. Cela nécessite une infrastructure réseau robuste et à haut débit, ainsi que des protocoles et des algorithmes de transfert de données efficaces.

Il existe deux choix principaux dans l'industrie qui répondent à ces exigences : RoCE et les réseaux InfiniBand. Ces deux options présentent des inconvénients. D'une part, Meta a construit des clusters RoCE au cours des quatre dernières années, mais les plus grands de ces clusters ne prenaient en charge que 4 000 GPU. Ils ont besoin de clusters RoCE beaucoup plus grands. D'autre part, Meta avait construit des grappes de recherche avec InfiniBand pouvant accueillir jusqu'à 16 000 GPU. Cependant, ces clusters n'étaient pas étroitement intégrés dans l'environnement de production de Meta et n'étaient pas non plus conçus pour la dernière génération de GPU/réseaux. Il a donc été difficile de décider avec quelle structure construire.

Meta a donc décidé de construire les deux : deux clusters de 24k, l'un avec RoCE et l'autre avec InfiniBand. Selon Meta, l'intention était de construire et d'apprendre de l'expérience opérationnelle. Ces enseignements éclaireront l'orientation future des tissus GenAI. Ils ont optimisé le cluster...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Comment Meta entraîne les grands modèles de langage en permettant aux chercheurs d'utiliser PyTorch et d'autres nouveaux développements open-source

Identifiant
Mot de passe

Mot de passe oublié ?