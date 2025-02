Nvidia dévoile la GPU Blackwell B200, la "puce la plus puissante au monde" pour l'IA, qui "réduit les coûts et la consommation d'énergie jusqu'à 25 fois" par rapport à un H100, selon Nvidia.



NVIDIA GB200 Grace Blackwell Superchip

Un moteur RAS dédié aux fonctions de fiabilité, de disponibilité et de facilité d'entretien. Ce type de fonctionnalités se retrouve traditionnellement dans les processeurs de serveurs tels que les puces Xeon d'Intel. La version RAS de Nvidia comprend également des fonctions de maintenance préventive basées sur l'IA au niveau de la puce afin de réduire les temps d'arrêt pour les déploiements massifs.

Des capacités informatiques confidentielles avancées qui " protègent les modèles d'IA et les données des clients sans compromettre les performances ". Ces capacités comprennent la prise en charge de " nouveaux protocoles de cryptage d'interface natifs ".

". Ces capacités comprennent la prise en charge de " ". Un moteur de décompression dédié qui accélère les requêtes de base de données pour les applications d'analyse et de science des données, que Nvidia a qualifiées de cibles croissantes pour les GPU.





NVIDIA GB200 NVL72

Le DGX B200, un système refroidi par air qui associe des GPU B200 à des CPU x86. Ce système est disponible dans un cluster DGX SuperPod.

Le DGX GB200, un modèle refroidi par liquide qui utilise les GPU Grace Hopper GB200. Huit de ces systèmes constituent un cluster DGX SuperPod, soit un total de 288 processeurs Grace, 576 GPU B200 et 240 To de mémoire rapide. Cela permet au DGX SuperPod de fournir 11,5 exaflops, ou quadrillions de calculs par seconde, en calcul FP4.



La plateforme NVIDIA Blackwell arrive pour propulser une nouvelle ère informatique

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Lors de son premier événement GTC en personne depuis près de cinq ans, la société basée à Santa Clara, en Californie, a dévoilé les premiers modèles de GPU utilisant l'architecture Blackwell, qui, selon elle, est accompagnée de "" qui "" dans des domaines tels que l'IA générative et le traitement des données, entre autres.Les modèles devraient arriver dans le courant de l'année, mais l'entreprise n'a pas donné d'autres précisions sur le calendrier. Les fournisseurs de services cloud qui devraient proposer des instances basées sur Blackwell comprennent Amazon Web Services, Microsoft Azure, Google Cloud et Oracle Cloud Infrastructure, ainsi que plusieurs autres acteurs, comme Lambda, CoreWeave et IBM Cloud. Du côté des serveurs, Cisco Systems, Dell Technologies, Hewlett Packard Enterprise, Lenovo et Supermicro devraient proposer une pléthore de systèmes basés sur Blackwell. Parmi les autres équipementiers prenant en charge les GPU, citons ASRock Rack, Asus, Eviden et Gigabyte.Blackwell est la première mise à jour de l'architecture de Nvidia pour les GPU de centres de données depuis que des applications d'IA générative telles que ChatGPT et Stable Diffusion ont été mises en ligne en 2022 et ont déclenché une nouvelle vague d'engouement et de dépenses pour le développement de l'IA, ce qui a profité aux partenaires de distribution investissant dans de telles capacités.La manie a bien payé jusqu'à présent pour Nvidia, dont les GPU ont été les principaux moteurs pour l'entraînement et l'exécution des modèles derrière de telles applications. Cela s'est traduit par une demande élevée et soutenue de GPU tels que le H100 et les systèmes associés, qui ont joué un rôle majeur dans le fait que la société a plus que doublé son chiffre d'affaires l'année dernière pour atteindre 60,9 milliards de dollars, dépassant celui d'Intel.Les premiers modèles confirmés à utiliser Blackwell sont les GPU B100 et B200, qui succèdent respectivement aux modèles H100 et H200 basés sur Hopper pour les systèmes à base de x86. Le B200 devrait disposer d'une capacité de mémoire à large bande passante supérieure à celle du B100.Les conceptions initiales incluent également le GB200 Grace Blackwell Superchip, qui, sur un seul boîtier, connecte une GPU B200 avec le processeur Grace à 72 cœurs basé sur Arm de la société, qui a été précédemment associé aux H200 et H100. Mais alors que les superpuces Grace Hopper combinent un seul processeur Grace avec une GPU Hopper, la superpuce Grace Blackwell combine un seul processeur Grace avec deux GPU Blackwell, ce qui augmente considérablement l'échelle des performances par rapport à la première génération.C'est avec le GB200 que Nvidia voit Blackwell briller lorsqu'il s'agit des charges de travail d'IA les plus exigeantes, en particulier les modèles d'IA massifs et complexes appelés Mixture-of-Experts qui combinent plusieurs modèles, poussant le nombre de paramètres à plus de 1 000 milliards. Dans un système refroidi par liquide avec 18 GB200, Nvidia a déclaré que les 36 GPU Blackwell du système sont capables de fournir des performances d'inférence de grands modèles de langage jusqu'à 30 fois plus rapides par rapport à un système refroidi par air avec 64 GPU H100.Alors que Nvidia promet des avancées significatives en matière d'inférence, d'efficacité énergétique et de réduction des coûts, l'énergie requise pour les configurations les plus puissantes de Blackwell augmente également. La société a déclaré que Blackwell peut être configuré à partir de 700 watts, ce qui était le maximum de Hopper et est le maximum pour le facteur de forme HGX B100 refroidi par air, jusqu'à 1200 watts, ce qui est exigé du GB200 pour une nouvelle architecture à l'échelle du rack refroidi par liquide.Marquant un changement dans les conceptions de Nvidia pour les GPU des centres de données, Blackwell combine "" sur un seul boîtier, selon la société. Ces puces sont connectées par un lien puce à puce de 10 TB/s, ce qui leur permet de fonctionner comme une "", a ajouté Nvidia. Cela porte le nombre de transistors de la GPU à 208 milliards, soit une augmentation considérable de 160 % par rapport au H100.Cette conception a été rendue possible grâce à un processus de fabrication 4NP à limite de deux particules, conçu sur mesure par le géant de la fonderie TSMC, que Nvidia a qualifié de "" de Blackwell.Un porte-parole de Nvidia a déclaré que "", une méthodologie pour connecter des puces plus petites dans un boîtier qui a été adoptée par AMD pendant des années, y compris pour ses GPU de centre de données Instinct MI300, et plus récemment adoptée par Intel pour une gamme plus large de produits, y compris ses GPU de centre de données de la série Max.En ce qui concerne les performances de l'IA, les GPU Blackwell sont capables d'effectuer jusqu'à 20 pétaflops, soit 20 quadrillions de calculs par seconde, selon Ian Buck, vice-président de l'hyperscale et du calcul à haute performance chez Nvidia. Cette performance a été mesurée à l'aide d'un nouveau format numérique appelé virgule flottante à quatre bits (FP4), dont la précision est inférieure à celle du format FP8 introduit par le prédécesseur de Blackwell, Hopper, et utilisé pour fournir 4 pétaflops dans chaque H100.Selon M. Buck, le FP4 permet à Blackwell de fournir deux fois plus de calculs et de bande passante que Hopper lorsqu'il utilise le FP8, et il permet également de doubler la taille d'un modèle d'intelligence artificielle pouvant tenir sur une seule GPU. "", a déclaré M. Buck lors d'une réunion d'information.Cela a été rendu possible grâce au Transformer Engine de deuxième génération de Blackwell, qui a été introduit dans Hopper pour accélérer les modèles basés sur l'architecture transformatrice qui domine le monde de l'IA aujourd'hui, tels que les grands modèles de langage et les modèles de diffusion. Tel qu'il a été conçu à l'origine, le moteur Transformer "" dans la GPU, selon M. Buck. Lorsque la GPU entraîne un modèle, le moteur "", a-t-il ajouté. Appelée l'une des "" de Blackwell, la deuxième génération du moteur peut rendre la surveillance encore plus granulaire grâce à la "", qui permet au moteur d'examiner les "", a déclaré M. Buck.Ce qui aide également Blackwell à atteindre 20 pétaflops dans une seule GPU est la bibliothèque logicielle open-source TensorRT-LLM de Nvidia, que la société a lancée l'année dernière pour doubler l'inférence de grands modèles de langage dans un H100, et le cadre NeMo Megatron pour l'entraînement de ces modèles.La cinquième génération de l'interconnexion puce à puce NVLink, qui permet aux GPU de communiquer entre eux, est une autre mise à jour technologique importante pour Blackwell, présentée par Nvidia. La nouvelle génération permet d'atteindre un débit bidirectionnel par GPU de 1,8 TB/s, soit le double des 900 GB/s que Hopper permettait avec la quatrième génération de NVLink. Elle augmente également considérablement le nombre de GPU pouvant communiquer entre eux à ces vitesses, ce qui permet une "" entre un maximum de 576 GPU. Il s'agit d'un grand pas en avant par rapport à la prise en charge maximale de 256 GPU qui était possible avec NVLink dans Hopper.Buck a déclaré que cela résout un goulot d'étranglement croissant pour les grandes grappes de GPU qui exécutent des modèles d'IA massifs, comme un modèle de mélange d'experts de 1 800 milliards de paramètres qui contient plusieurs modèles travaillant ensemble pour exécuter des fonctions complexes et fournir de meilleures réponses. "", a déclaré M. Buck à propos d'un scénario avec les GPU Hopper de Nvidia.Les autres mises à jour technologiques majeures de Blackwell sont les suivantes :Nvidia annonce deux nouveaux modèles de systèmes DGX équipés de GPU Blackwell :Le SuperPod basé sur le GB200 est fabriqué à l'aide d'une nouvelle version de l'architecture à l'échelle du rack que Nvidia a introduite avec AWS l'année dernière pour alimenter les grandes applications d'IA générative. Baptisé GB200 NVL72, il s'agit d'un "", selon Nvidia, et il contient 36 GB200 Grace Blackwell Superchips ainsi que les unités de traitement de données (DPU) BlueField-3 de la société. Ces DPU sont destinées à "", a déclaré la société.Les systèmes GB200 NVL72 deviendront la base de l'infrastructure des instances Blackwell proposées par Microsoft Azure, AWS, Google Cloud et Oracle Cloud Infrastructure, ces trois derniers proposant le service DGX Cloud de Nvidia au-dessus des systèmes. Nvidia prévoit de permettre aux OEM et autres partenaires de construire leurs propres systèmes basés sur Blackwell avec la carte serveur HGX, qui relie huit GPU B100 ou B200. La société n'a pas encore annoncé son intention de proposer les GPU Blackwell dans des cartes PCIe pour des serveurs standard.Pour permettre des connexions à large bande entre ces systèmes, Nvidia a annoncé deux nouvelles plates-formes réseau à haut débit qui offrent des vitesses allant jusqu'à 800 Go/s : la plate-forme InfiniBand Quantum-X800 et la plate-forme Spectrum-X800.Selon Nvidia, la plate-forme Quantum-X800, qui comprend le commutateur Quantum 3400 et le SuperNIC ConnectX-8, offre une capacité de bande passante cinq fois plus élevée et permet de multiplier par neuf le calcul en réseau, soit 14,4 téraflops.Le Spectrum-X800, quant à lui, "", selon Nvidia. Cela permet d'accélérer "", selon l'entreprise.Voici l'annonce de Nvidia :[QUOTE]Appuyant une nouvelle ère de l'informatique, NVIDIA annonce l'arrivée de la plateforme NVIDIA Blackwell qui permet aux entreprises du monde entier de construire et d'exécuter une IA générative en temps réel sur des grand modèles de langage à des trillions de paramètres, pour un coût et une consommation d'énergie jusqu'à 25 fois inférieurs à ceux de son prédécesseur.L'architecture GPU Blackwell comporte six technologies transformatrices pour l'accélération du calcul, qui aideront à réaliser des percées dans le traitement des données, la simulation d'ingénierie, l'automatisation de la conception électronique, la conception de médicaments assistée par ordinateur, l'informatique quantique et l'IA générative - autant d'opportunités industrielles émergentes pour NVIDIA.", a déclaré Jensen Huang, fondateur et CEO de NVIDIA. "Parmi les nombreuses organisations qui devraient adopter Blackwell figurent Amazon Web Services, Dell Technologies, Google, Meta, Microsoft, OpenAI, Oracle, Tesla et xAI.: "".: "".: ": ": "".: ": "".: ": "Nommée en l'honneur de David Harold Blackwell - mathématicien spécialisé dans la théorie des jeux et les statistiques, et premier chercheur noir intronisé à l'Académie nationale des sciences - la nouvelle architecture succède à l'architecture NVIDIA Hopper, lancée il y a deux ans.Les six technologies révolutionnaires de Blackwell...