IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Pour aspirer massivement vos données, comment Meta a créé l'une des plus grandes infrastructures d'exploitation IA au monde, avec une croissance exponentielle

Le , par Anthony

298PARTAGES

5  0 
Meta exploite actuellement de nombreux centres de données avec des clusters d'entraînement GPU à travers le monde. Ses centres de données sont l'épine dorsale de ses opérations et sont méticuleusement conçus pour répondre aux demandes d'extension des capacités de calcul et de stockage. Cependant, il y a un an, alors que l'industrie atteignait un point d'inflexion critique en raison de l'essor de l'intelligence artificielle (IA), Meta a reconnu que pour être leader dans le domaine de l'IA générative, il lui fallait transformer sa flotte.

L'attention accrue portée par Meta à l'égard de l'IA s'explique à la fois par son rôle croissant dans l'obtention de résultats commerciaux et par l'augmentation considérable des besoins en calcul de ces types de charges de travail. En plus d'une utilisation plus large de l'IA traditionnelle pour des choses comme le ciblage publicitaire, Meta a également vu un nombre croissant de grands modèles d'IA générative qui imitent l'intelligence presque humaine dans tout ce qui va de l'interaction verbale humaine à la création d'images et d'autres médias. Ces types de modèles sont énormes, avec des trillions de paramètres d'entraînement, et pour les entraîner, l'entreprise a besoin de vastes ressources.


Au cours de ce processus, Meta a mis en place l'une des plus grandes infrastructures de formation à l'IA au monde, qui a connu une croissance exponentielle au cours des dernières années. L'infrastructure de formation de Meta comprend des douzaines de clusters d'IA de différentes tailles, avec un plan pour passer à 600 000 GPU dans l'année à venir. Elle exécute chaque jour des milliers de tâches d'entraînement provenant de centaines d'équipes Meta différentes. Les caractéristiques des tâches de formation sont également très variables. Ils peuvent être aussi petits qu'un seul GPU fonctionnant pendant quelques minutes, alors que les travaux d'IA générative peuvent avoir des trillions de paramètres et s'étendent souvent sur des milliers d'hôtes qui doivent travailler ensemble et sont très sensibles aux interruptions. En outre, les tâches de formation sont liées de manière beaucoup plus étroite au matériel, et ce matériel varie considérablement. Meta exécute différents types de réseaux dorsaux, de topologies et de tâches de formation qui présentent des dépendances étroites entre les composants logiciels et matériels.

Cette transition n'a pas été sans difficultés. Meta a dû reconfigurer sa flotte sans perturber son hypercroissance, une tâche qui s'apparente à la reconstruction d'un avion en plein vol. Cela a poussé l'entreprise à innover et à collaborer avec les fournisseurs et les entreprises de services publics afin de créer un écosystème favorable. Ci-dessous, une seule de ces transformations sera examinée : comment Meta maintient ces clusters de formation et ce qui lui différencie de l'environnement d'IA moyen. Mais que signifie le terme " maintient " ? Il s'agit essentiellement de toute opération de mise à jour ou de vérification des composants logiciels et micrologiciels des clusters, y compris le chemin de mise en réseau.

Les principales caractéristiques de la formation sur GPU

La formation sur GPU présente des caractéristiques exigeantes :

  • Garanties de capacité : Bien que certains travaux de formation puissent être mis en pause, un grand nombre de travaux Meta sont critiques en termes de temps et récurrents ou en ligne. Cela signifie qu'il n'est pas possible d'utiliser de grandes quantités de capacité par défaut.
  • Les mauvais hôtes sont très mauvais : étant donné que de nombreux travaux exigent que tous les hôtes soient synchronisés, les mauvais hôtes qui sont un peu plus lents, qui ont du matériel non fatal ou qui ont des problèmes de réseau sont extrêmement préjudiciables.
  • Faible taux d'interruption : Étant donné que de nombreux hôtes travaillent les uns avec les autres sur un problème commun, les tâches d'apprentissage de l'IA sont sensibles aux interruptions.
  • Sécurité du déploiement : La pile logicielle d'IA est profonde et les problèmes sont souvent difficiles à cerner, c'est pourquoi Meta doit être prudent lorsqu'il s'agit de déployer de nouveaux composants.
  • Cohérence de l'hôte : Les tâches d'apprentissage de l'IA sont généralement inter-hôtes, et bien qu'en dehors de la version CUDA il y ait rarement des incompatibilités majeures, Meta a appris que la cohérence des clusters est très importante pour le débogage et l'évitement de SEV.

Quelle est la particularité de la formation sur GPU de Meta ?

Meta utilise du matériel d'entraînement sur mesure avec les puces les plus récentes possibles et des réseaux dorsaux de haute performance dont la vitesse est fortement optimisée. Elle essaie également de rester aussi actuelle et flexible que possible avec la pile logicielle ; en cas de mises à jour du micrologiciel, cela permet à Meta d'utiliser de nouvelles fonctionnalités ou de réduire les taux d'échec.

Ensemble, cela signifie que Meta dispose de plus de :

  • 30 opérations de maintenance
  • 50 composants différents qui sont mis à jour
  • Trois tâches différentes de vérification de l'hôte pour garantir des performances et une stabilité optimales.
  • Des milliers de tâches d'hôte d'IA disruptives par jour.

Et cela doit se faire en toute sécurité, tout en garantissant la capacité. Après tout, les grappes de formation sont également utilisées de manière flexible pour exécuter une grande variété de charges de travail, allant de l'hôte unique à certains des plus gros travaux de formation au monde, et des tâches hors ligne aux travaux qui doivent être opérationnels 24 heures sur 24 et 7 jours sur 7.


Compte tenu de la diversité des mises à niveau, Meta a à tout moment un grand nombre de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !