Nvidia a présenté une nouvelle puce d’IA, la GH200, qui combine une GPU puissante avec une grande mémoire et un processeur ARM. La puce vise à réduire les coûts et le temps nécessaires pour entraîner et exécuter des modèles d’IA générative, comme ceux utilisés par Google et OpenAI. La puce sera disponible l’année prochaine et devrait renforcer la position de Nvidia sur le marché des puces d’IA.
Nvidia a dévoilé mardi sa nouvelle puce, la GH200, qui est conçue pour accélérer le développement et le déploiement des modèles d’IA générative. Ces modèles sont capables de créer du contenu original, comme du texte, des images ou de la musique, à partir de données. Des exemples de ces modèles sont Bard de Google, qui peut générer des poèmes ou des articles, et ChatGPT d’OpenAI, qui peut converser avec les utilisateurs.
Les cas d'utilisation de l'IA étant de plus en plus élaborés, la taille et la complexité des modèles d'IA montent en flèche. Alors que la plupart des organisations ont besoin de traiter de nombreuses charges de travail d'IA en parallèle, un certain nombre d'utilisateurs ont des besoins massifs en mémoire pour une seule charge de travail qui dépasse les limites d'une GPU ou même d'un grand système multi-GPU.
Actuellement, Nvidia domine le marché des puces d'IA avec plus de 80 % de parts de marché, selon certaines estimations. La société est spécialisée dans les unités de traitement graphique, ou GPU, qui sont devenues les puces préférées pour les grands modèles d'IA qui sous-tendent les logiciels d'IA générative, tels que Bard de Google et ChatGPT d'OpenAI. Mais les puces de Nvidia se font rares, car les géants de la technologie, les fournisseurs de cloud et les startups se disputent la capacité des GPU pour développer leurs propres modèles d'IA.
La nouvelle puce de Nvidia, la GH200, possède la même GPU que la puce d'IA la plus haut de gamme de l'entreprise, la H100. Mais le GH200 associe cette GPU à 141 gigaoctets de mémoire de pointe, ainsi qu'à un processeur central ARM à 72 cœurs. « Nous donnons un coup de pouce à ce processeur », a déclaré Jensen Huang, PDG de Nvidia, lors d'une conférence. Il a ajouté : « Ce processeur est conçu pour la mise à l'échelle des centres de données du monde entier ».
La nouvelle puce sera disponible auprès des distributeurs de Nvidia au cours du deuxième trimestre de l'année prochaine, a déclaré Huang, et devrait être disponible pour échantillonnage d'ici la fin de l'année.
Nvidia combine mémoire, processeur et GPU pour l’IA générative
La GH200 est basée sur la même GPU que la puce haut de gamme de Nvidia, la H100, qui offre une performance de calcul élevée pour l’entraînement et l’inférence des modèles d’IA. Mais la GH200 se distingue par sa mémoire de 141 gigaoctets, qui permet de stocker davantage de données et de modèles dans la puce, ainsi que par son processeur ARM à 72 cœurs, qui gère les tâches annexes comme la communication réseau ou la gestion des données.
Contrairement aux supercalculateurs d'IA existants, conçus pour prendre en charge des charges de travail qui tiennent dans la mémoire d'un seul système, NVIDIA DGX GH200 est le seul supercalculateur d'IA qui offre un espace mémoire partagé allant jusqu'à 144 To sur 256 Superchips Grace Hopper, ce qui permet aux développeurs d'être près de 500 fois plus rapides pour construire des modèles massifs.
Le DGX GH200 est le premier supercalculateur à associer les superpuces Grace Hopper à l'architecture de l'IA avec le système de commutation NVIDIA NVLink, qui permet d'unir jusqu'à 256 GPU pour former une seule GPU de la taille d'un centre de données. Cette architecture fournit 48 fois plus de bande passante que la génération précédente, apportant la puissance d'un supercalculateur d'IA massif avec la simplicité de programmation d'une seule GPU.
Pour ces organisations, qui comprennent des fournisseurs de services cloud (CSP), des hyperscalers, de recherche et d'autres entreprises de pointe qui repoussent les limites de l'IA, NVIDIA DGX GH200 fournit un nouveau modèle pour les grands systèmes de modélisation. Grâce à la puce NVIDIA Grace Hopper Superchip intégrant la 4e génération NVIDIA NVLink intégrée qui assure une évolutivité linéaire et une grande mémoire partagée pour toutes les GPU. Les capacités nécessaires pour développer les plus grands réseaux neuronaux graphiques, les graphes, de recommandeurs, de modèles de simulation et d'applications d'IA générative les plus vastes au monde.
Un modèle est formé à l'aide de grandes quantités de données, un processus qui peut prendre des mois et qui nécessite parfois des milliers de GPU, comme, dans le cas de Nvidia, ses puces H100 et A100. Le modèle est ensuite utilisé dans un logiciel pour faire des prédictions ou générer du contenu, selon un processus appelé inférence. Tout comme la formation, l'inférence est coûteuse en termes de calcul et nécessite une grande puissance de traitement à chaque fois que le logiciel s'exécute, par exemple lorsqu'il s'agit de générer un texte ou une image.
Mais à la différence de la formation, l'inférence a lieu presque en permanence, alors que la formation n'est nécessaire que lorsque le modèle a besoin d'être mis à jour. « Vous pouvez prendre à peu près n'importe quel grand modèle de langage que vous voulez et le mettre dans ce système, et il fera de l'inférence comme un fou », a déclaré Huang. « Le coût d'inférence des grands modèles de langage diminuera considérablement. »
Selon Jensen Huang, PDG de Nvidia, la GH200 va réduire de manière significative les coûts d’exploitation des centres de données qui utilisent des modèles d’IA générative. Il a affirmé que la puce pourrait entraîner un modèle comme Bard en quelques jours au lieu de plusieurs mois, et réduire le coût par heure de 90 %. Il a également déclaré que la puce pourrait exécuter un modèle comme ChatGPT avec une latence inférieure à 10 millisecondes.
La complexité des modèles d'IA s'étant accrue, la technologie permettant de les développer et de les déployer est devenue plus gourmande en ressources. Cependant, grâce à l'architecture Grace Hopper de NVIDIA, le DGX GH200 offre une excellente efficacité énergétique. Chaque Superchip NVIDIA Grace Hopper est à la fois une CPU et une GPU dans une seule unité, connectée avec la technologie NVIDIA NVLink-C2C.
Le CPU Grace utilise la mémoire LPDDR5X, qui consomme un huitième de la puissance de la mémoire système DDR5 traditionnelle tout en fournissant 50 pour cent de bande passante en plus que la DDR5 à huit canaux. Et se trouvant sur le même boîtier, le processeur Grace et l'interconnexion Hopper GPU consomment 5 fois moins d'énergie et fournissent 7 fois plus de bande passante par rapport à la dernière technologie PCIe d'Intel utilisée dans d'autres systèmes.
Le NVIDIA DGX GH200 et la concurrence
Les nouvelles normes PCIe offrent une connexion plus large aux GPU, aux SSD et aux autres périphériques. Les systèmes de 12ᵉ génération prennent en charge la norme PCIe 5.0 tandis que ceux de 11ᵉ génération prennent en charge la norme PCIe 4.0. Toutes les générations de PCIe sont rétrocompatibles.
L'un des principaux avantages des processeurs Intel Core de 12ᵉ et 11ᵉ générations est l'ajout de voies PCIe du processeur conformément aux nouvelles normes. Les processeurs Intel Core de 12ᵉ génération offrent jusqu'à 16 voies PCIe 5.0 et quatre voies PCIe 4.0 du processeur, tandis que les processeurs Intel Core de 11ᵉ génération, comme le processeur Intel Core i9-11900K, offrent jusqu'à 20 voies PCIe 4.0 du processeur.
Toutes les voies PCIe ne fonctionnent pas de la même manière. Les voies PCIe du processeur se connectent directement au processeur, tandis que les voies du chipset (ou « voies PCH ») passent par le chipset de la carte mère, qui se connecte au processeur via une liaison DMI (Direct Media Interface).
Le PCH gère généralement les fonctionnalités de votre carte mère, telles que les périphériques USB, les réseaux Wi-Fi et Ethernet et le son intégré. Le lien entre le processeur et le chipset étant limité à une bande passante totale de 8 fois le 3.0, il est possible de saturer le lien si vous branchez plusieurs périphériques de stockage et utilisez d'autres ressources. La connexion directe au processeur permet de contourner ce goulot d'étranglement.
Grâce aux 20 voies PCIe du processeur fournies par les processeurs Intel Core de 11ᵉ génération, les constructeurs de PC peuvent donner à un processeur graphique et à une unité de stockage SSD NVMe le chemin optimal vers leur processeur en même temps. Les processeurs Intel Core de 12ᵉ génération offrent la même option avec une bande passante encore plus élevée, car leurs 16 voies PCIe 5.0 du processeur sont deux fois plus rapides que le 4.0.
Dans le passé, les utilisateurs disposant de 16 voies PCIe 3.0 ne pouvaient profiter de ce chemin optimal vers leur processeur qu'en réduisant de moitié la bande passante de leur processeur graphique, créant ainsi un autre goulot d'étranglement potentiel.
Les unités de stockage SSD PCIe m.2 et les SSD NVMe utilisant des cartes riser bénéficient déjà d'avantages en termes de vitesse par rapport aux disques qui se connectent via un câble de données SATA. Le débit plus élevé de PCIe permet au stockage NVMe de mettre rapidement en file d'attente davantage de données, et la connexion directe à la carte mère réduit la latence. La connexion aux voies PCIe du processeur permet de réduire davantage la latence en éliminant la distance que les données doivent parcourir dans le chipset.
Le DGX GH200 de NVIDIA est un superordinateur d’IA qui se distingue par sa capacité à gérer des modèles d’IA de très grande taille, grâce à sa mémoire partagée de 144 TB et à ses 256 puces Grace Hopper. Il s’agit d’une avancée majeure pour les applications d’IA générative, qui nécessitent de manipuler de grandes quantités de données et de créer du contenu original. Le DGX GH200 promet de réduire le temps et le coût d’entraînement et d’inférence de ces modèles, ainsi que d’améliorer leur performance et leur qualité.
Il sera disponible pour les clients de Nvidia au cours du deuxième trimestre 2023, et pourra être testée d'ici à la fin 2022. La puce devrait renforcer l’avance de Nvidia sur ses concurrents dans le domaine des puces d’IA, tels qu’AMD, Google et Amazon, qui développent également leurs propres puces pour leurs besoins en IA.
Toutefois, le DGX GH200 présente par ailleurs des limites et des défis. D’une part, son prix n’a pas été révélé, mais il est probable qu’il soit très élevé, ce qui le rend inaccessible pour la plupart des utilisateurs. D’autre part, son utilisation implique des problèmes éthiques et sociaux, liés à la fiabilité, à la sécurité et à la responsabilité des modèles d’IA générative.
In fine, le DGX GH200 de NVIDIA est un produit innovant et impressionnant, qui ouvre de nouvelles possibilités pour le développement de l’IA générative. Mais il pose aussi des questions importantes sur les implications et les conséquences de cette technologie, qui doivent être prises en compte par les concepteurs, les utilisateurs et les régulateurs.
Source : NVIDIA
Et vous ?
Quels sont selon vous, les avantages et les inconvénients du DGX GH200 par rapport aux autres solutions de puces d’IA du marché ?
À votre avis, quels sont les domaines d’application les plus prometteurs et les plus risqués pour l’IA générative ?
Quelles mesures et normes proposez-vous pour assurer l’éthique, la sécurité et la transparence de l’IA générative ?
Quel peut être l’impact environnemental du DGX GH200 et comment le réduire ou le compenser ?
Voir aussi :
NVIDIA franchit temporairement la barre des 1 000 milliards de dollars de capitalisation boursière grâce à la forte demande en IA, devenant le premier fabriquant de puces à rejoindre les GAFA
Nvidia dévoile GPU Ampere A100, une puce d'intelligence artificielle, avec 54 milliards de transistors et peut exécuter 5 pétaflops de performances
Intel s'apprête à commercialiser un processeur quantique à 12 qubits, l'optimisation, la chimie, la physique, la cryptographie et l'intelligence artificielle sont ses domaines d'application
Nvidia dévoile une nouvelle puce d'IA, le NVIDIA DGX GH200,
Et affirme que les coûts d'exploitation des LLM vont « baisser de manière significative »
Nvidia dévoile une nouvelle puce d'IA, le NVIDIA DGX GH200,
Et affirme que les coûts d'exploitation des LLM vont « baisser de manière significative »
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !