Le système porte le nom de Saul Perlmutter, un astrophysicien du Berkeley Lab qui a partagé le prix Nobel de physique 2011 pour ses contributions à la recherche montrant que l'expansion de l'univers s'accélère. Il est donc logique que l'un des premiers cas d'utilisation du superordinateur Perlmutter soit le soutien de l'instrument spectroscopique d'énergie noire (DESI), qui étudie l'effet de l'énergie noire sur l'expansion de l'univers. Perlmutter aidera à cartographier l'univers visible, qui s'étend sur 11 milliards d'années-lumière, en traitant les données de DESI, qui est capable de capturer jusqu'à 5 000 galaxies en une seule exposition.
La première phase implique que les ingénieurs de HPE assemblent l'infrastructure pour héberger la machine et placer 1 536 nœuds de calcul, chacun contenant quatre GPU Nvidia A100 Tensor Core connectés en NVLink-3 et un processeur AMD Milan Epyc. Cela représente un total de 6 159 GPU A100 de Nvidia et de 1 536 puces de serveur AMD, ce qui permetrait d'atteindre quatre exaFLOPs de performance IA en précision FP16.
La deuxième phase consistera à équiper la machine de davantage de cœurs de CPU dans le courant de l'année. Trois mille soixante-douze autres nœuds de calcul seront ajoutés. Ils seront équipés de deux processeurs Milan d'AMD et disposeront de 512 Go de mémoire par nœud. Dion Harris, responsable mondial du marketing des produits HPC et AI de Nvidia, a déclaré qu'une fois Perlmutter terminé, la machine devrait se classer parmi les cinq premiers supercalculateurs de la liste Top 500. Les superordinateurs de cette liste sont classés en fonction de leurs performances en précision FP64.
L'un des principaux projets du superordinateur consistera à exploiter les recherches du physicien de Saul Perlmutter en construisant la plus grande simulation tridimensionnelle de l'univers connue à ce jour. Les chercheurs utiliseront les images prises par l'instrument spectroscopique de l'énergie noire, un dispositif intégré au télescope Nicholas Mayall de quatre mètres de l'observatoire national de Kitt Peak, qui captera la lumière de quelque 30 millions de galaxies.
Le supercalculateur prend en charge OpenMP et le HPC SDK de Nvidia, une suite de compilateurs et de bibliothèques logicielles conçus pour accélérer le calcul scientifique écrit en C++ et Fortran sur les GPU. Rapids, un autre framework de Nvidia qui fonctionne avec l'ordinateur est destiné aux applications de science des données en Python.
« Le système Perlmutter jouera un rôle clé dans l'avancement de la recherche scientifique aux États-Unis et est au premier plan dans un certain nombre de technologies critiques, notamment l'informatique avancée, l'intelligence artificielle et la science des données, a déclaré un porte-parole du Lawrence Berkeley National Laboratory. Le système sera également fortement utilisé dans les études sur le climat et l'environnement, les technologies d'énergie propre, les semi-conducteurs et la microélectronique, et la science de l'information quantique ».
Nvidia a indiqué que Quantum Espresso, BerkeleyGW et NWChem sont tous capables d'exploiter les FP64 Tensor Cores de Nvidia, ce qui permet de doubler les performances du format FP64 standard – 19,5 téraflops contre 9,7 téraflops (pic théorique) par GPU. (Nvidia indique que Perlmutter fournit 120 pétaflops de performance maximale FP64 Tensor Core).
Perlmutter est le successeur de Cori (nommé en l'honneur du biochimiste lauréat du prix Nobel Gerty Cori), qui a également été construit en deux partitions, la phase 1 de la « partition de données » basée sur Intel Haswell et la phase 2 de la partition Intel Knights Landing (Xeon Phi). Cori est le plus grand système de supercalculateur pour la science ouverte basé sur des processeurs KNL. Le NERSC continuera à exploiter Cori au moins jusqu'en 2022.
Diagramme d'architecture de haut niveau de Perlmutter
Plus de deux douzaines d'applications se préparent à être parmi les premières à utiliser les 6 159 GPU NVIDIA A100 Tensor Core de Perlmutter, le plus grand système au monde équipé d'A100. Elles visent à faire progresser la science dans les domaines de l'astrophysique, de la climatologie, etc.
Une carte en 3D de l'univers
Dans le cadre de l’un des projets, le superordinateur aidera à assembler la plus grande carte en 3D de l'univers visible à ce jour. Il traitera les données de l'instrument spectroscopique d'énergie noire (DESI), une sorte de caméra cosmique qui peut capturer jusqu'à 5 000 galaxies en une seule exposition.
Les chercheurs ont besoin de la vitesse des GPU de Perlmutter pour capturer des dizaines d'expositions d'une nuit afin de savoir où orienter le DESI la nuit suivante. La préparation d'une année de données en vue de leur publication prendrait des semaines ou des mois avec les systèmes précédents, mais Perlmutter devrait les aider à accomplir cette tâche en quelques jours seulement.
Rollin Thomas, un architecte de données du NERSC qui travaille à l'accélération du logiciel de l'équipe sur le système, a déclaré que les GPU accéléreront le processus de traitement des chiffres. « Je suis vraiment satisfait des accélérations de 20 fois que nous avons obtenues avec les GPU dans nos travaux préparatoires », a-t-il déclaré.
La persévérance de Perlmutter porte ses fruits
La carte de DESI vise à faire la lumière sur l'énergie noire, la physique mystérieuse qui se cache derrière l'accélération de l'expansion de l'univers. L'énergie sombre a été découverte en grande partie grâce aux travaux de Saul Perlmutter, lauréat du prix Nobel en 2011, un astrophysicien toujours actif au Berkeley Lab qui contribuera à dédier le nouveau superordinateur qui porte son nom.
L'énergie noire est le nom donné à une composante hypothétique de notre univers, présentant la particularité d'avoir une pression négative. Elle serait responsable de l'accélération de l'expansion cosmique mise en évidence de façon expérimentale en 1998. « Pour moi, Saul Perlmutter est un exemple de ce que les gens peuvent faire avec la bonne combinaison d'une curiosité insatiable et d'un engagement à l'optimisme », a déclaré Thomas, qui a travaillé avec Perlmutter sur des projets faisant suite à la découverte récompensée par le prix Nobel.
Un superordinateur qui allie IA et HPC
Un esprit similaire anime de nombreux projets qui seront exécutés sur le nouveau superordinateur du NERSC. Par exemple, les travaux en science des matériaux visent à découvrir les interactions atomiques qui pourraient ouvrir la voie à de meilleures batteries et à de meilleurs biocarburants.
Les superordinateurs traditionnels peuvent à peine gérer les mathématiques nécessaires pour générer des simulations de quelques atomes sur quelques nanosecondes avec des programmes tels que Quantum Espresso. Mais en combinant leurs simulations très précises avec l'apprentissage automatique, les scientifiques peuvent étudier un plus grand nombre d'atomes sur de plus longues périodes.
« Par le passé, il était impossible de réaliser des simulations entièrement atomistiques de grands systèmes tels que les interfaces de batteries, mais les scientifiques prévoient maintenant d'utiliser Perlmutter pour le faire », a déclaré Brandon Cook, spécialiste des performances des applications au NERSC, qui aide les chercheurs à lancer de tels projets.
C'est là que les Tensor Cores de l'A100 jouent un rôle unique. Ils accélèrent à la fois les calculs en virgule flottante en double précision pour les simulations et les calculs en précision mixte nécessaires à l'apprentissage profond. Un travail similaire a valu au NERSC d'être reconnu en novembre comme finaliste du prix Gordon Bell pour son programme BerkeleyGW utilisant des GPU NVIDIA V100.
La partie logicielle du superordinateur
Le logiciel est également un élément stratégique de Perlmutter, a déclaré M. Deslippe, notant la prise en charge d'OpenMP et d'autres modèles de programmation populaires dans le SDK NVIDIA HPC utilisé par le système.
Par ailleurs, RAPIDS, code open source pour la science des données sur les GPU, accélérera le travail de l'équipe croissante de programmeurs Python du NERSC. Il a prouvé sa valeur dans le cadre d'un projet qui a permis d'analyser l'ensemble du trafic réseau du supercalculateur Cori du NERSC près de 600 fois plus vite que les efforts précédents sur les CPU. « Cela nous a convaincu que RAPIDS jouera un rôle majeur dans l'accélération de la découverte scientifique grâce aux données », a déclaré Thomas.
Relever les défis de COVID
Selon NVIDIA, malgré la pandémie, Perlmutter est dans les délais. Cependant, l'équipe a dû repenser des étapes cruciales, comme l'organisation de hackathons pour les chercheurs travaillant depuis leur domicile sur le code des applications de type exascale du système.
Pendant ce temps, lors de l'assemblage de la phase 1, les ingénieurs de Hewlett Packard Enterprise, en collaboration avec le personnel du NERSC ont modernisé les installations pour accueillir le nouveau système. « Nous apprécions grandement le travail de ces personnes sur place qui ont mis le système en place, surtout avec tous les protocoles spéciaux de COVID » a déclaré Thomas.
Lors de l'événement de lancement virtuel, Jensen Huang, CEO de NVIDIA, a félicité l'équipe du Berkeley Lab pour son projet de faire progresser la science avec le supercalculateur. « La capacité de Perlmutter à fusionner l'IA et le calcul de haute performance conduira à des percées dans une large gamme de domaines allant de la science des matériaux et de la physique quantique aux projections climatiques, à la recherche biologique et plus encore », a déclaré Huang.
Le supercalculateur d'IA est prêt à temps et l'inauguration virtuelle d'aujourd'hui représente une étape très concrète. « L'IA pour la science est un domaine en pleine croissance au ministère américain de l'Énergie, où les preuves de concept se transforment en cas d'utilisation en production dans des domaines tels que la physique des particules, la science des matériaux et la bioénergie » , a déclaré Wahid Bhimji, responsable par intérim du groupe de services de données et d'analyse du NERSC.
« Les gens explorent des modèles de réseaux neuronaux de plus en plus grands et il y a une demande d'accès à des ressources plus puissantes. Perlmutter, avec ses GPU A100, son système de fichiers all-flash et ses capacités de streaming de données, arrive donc à point nommé pour répondre à ce besoin d'IA », a-t-il ajouté.
France : Hewlett Packard Enterprise soutient l'innovation et la recherche
Le mois dernier, Hewlett Packard Enterprise a annoncé qu'elle a été choisie pour construire une plateforme de calcul et d’apprentissage machine pour la Maison de l'Intelligence Artificielle (MIA). Cet espace public, créé par Charles Ange Ginésy, Président des Alpes-Maritimes et Président du Syndicat mixte de la Maison de l’Intelligence Artificielle et situé à Sophia Antipolis, dans le sud de la France, le plus grand parc technologique d'Europe est entièrement consacré à l’Intelligence Artificielle et ses applications.
HPE a été sélectionné par le Conseil Départemental des Alpes-Maritimes, la Maison de l’Intelligence Artificielle et Université Côte d'Azur pour fournir une infrastructure de bout en bout basée sur ses solutions de calcul haute performance (HPC) et d'intelligence artificielle (IA), à la pointe de l'industrie, alimentées par les Systèmes HPE Apollo ainsi que les capacités de stockage HPE Nimble Storage.
L’implantation à la Maison de l’Intelligence Artificielle (MIA), lieu unique en France et en Europe, d’une plateforme de calcul, propulsée par Hewlett Packard Enterprise et financée par le Département des Alpes-Maritimes et Université Côte d’Azur, permettra aux étudiants, chercheurs et startups d’accéder à une infrastructure performante pour mener des projets d’intelligence artificielle et de machine learning.
Sources : NVIDIA, HPC
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la collaboration d'HPE avec La Maison de l'Intelligence Artificielle ?
Voir aussi :
Hewlett Packard Enterprise sélectionnée pour construire un supercalculateur pour la Maison de l'intelligence artificielle, à Sophia Antipolis et soutenir l'innovation et la recherche en France
Nvidia annonce le GPU A100 80 Go pour sa plateforme de calcul intensif "Nvidia HGX AI", avec deux fois plus de mémoire que son prédécesseur, l'A100 40 Go
NVIDIA va concevoir des processeurs haute performance basés sur la technologie Arm, s'attaquant ainsi à Intel avec une nouvelle technologie destinée à l'IA avancée
Hewlett Packard Enterprise remporte un contrat de plus de 160 millions de dollars pour équiper l'un des supercalculateurs les plus rapides au monde, basé en Finlande