Amazon se lance dans la construction de l'un des plus grands clusters de supercalculateurs pour l'IA au monde avec le projet Rainier. Cette infrastructure comprendra un immense cluster composé de centaines de milliers d'accélérateurs et devrait être opérationnelle dans le courant de l'année dans divers sites aux États-Unis. Un site dans l'Indiana comprendra trente centres de données, chacun d'une superficie de 18 580 mètres carrés et consommant collectivement environ 2,2 gigawatts d'électricité. Mais Rainier et les projets comme Stargate d'OpenAI et Colossus de xAI suscitent de sérieuses inquiétudes quant à leur impact environnemental.Amazon est désormais en bonne voie pour créer et déployer ce qu'il présente comme l'ordinateur le plus puissant au monde pour l'entraînement de modèles d'IA. Le projet Rainier a été annoncé pour la première fois lors de l'événement Re:Invent à Las Vegas à la fin de l'année dernière. Il est développé avec Anthropic, soutenu par le géant du cloud computing. En mars 2024, Amazon a annoncé un investissement de 4 milliards de dollars dans Anthropic.
Il s'agit d'un projet multisite semblable à Stargate d'OpenAI et non d'une installation unique comme le supercalculateur Colossus de la startup xAI d'Elon Musk. Cela signifie que le projet Rainier pourrait ne pas avoir de limites supérieures. Dans un billet de blogue, Amazon a présenté les détails du projet Rainier.
Quelques caractéristiques importantes du projet Rainier d'Amazon
Rainier s'articule autour d'un immense UltraCluster EC2 composé d'UltraServers Trainium2, propulsé par des centaines de milliers de puces d'IA Trainium2. Ces puces de deuxième génération intègrent du silicium personnalisé développé par Annapurna Labs et sont spécialement conçues pour l'entraînement de modèles d'IA à grande échelle. (Annapurna Labs est une filiale d'Amazon. Le géant du commerce électronique a acquis la startup pour sa division AWS.)
Selon les informations rendues publiques, chaque UltraServer abrite 64 accélérateurs d'IA Trainium2 et offre environ 332 pétaflops de performances de calcul FP8 clairsemées. Mais au-delà de la puissance de calcul brute, ce qui distingue véritablement cette initiative, c'est son architecture distribuée.
Plutôt que d'être concentré en un seul endroit, Rainier s'étend sur plusieurs centres de données AWS à travers le pays, ce qui permet d'optimiser la puissance et la température, tout en restant étroitement intégré grâce au réseau EFA (Elastic Fabric Adapter) d'AWS, qui fournit une interconnexion à très faible latence. Cette architecture permet à une infrastructure géographiquement dispersée de fonctionner comme un système d'entraînement unifié.
Au cœur de l'architecture UltraServer piloté par Trainium2 d'AWS
Le cœur de Rainier est l'accélérateur Trainium2, un nœud d'entraînement haute performance conçu par AWS. En dépit de ce que son nom pourrait suggérer, la puce peut être utilisée pour les charges de travail d'entraînement et d'inférence, ce qui sera pratique pour les clients qui utilisent l'apprentissage par renforcement (RL), comme nous l'avons vu avec les modèles DeepSeek-R1 et o1 d'OpenAI, afin d'imprégner leurs IA de capacités de raisonnement.
La puce elle-même est composée d'une paire de puces de calcul de 5 nm collées ensemble grâce à la technologie d'emballage CoWoS (chip-on-wafer-on-substrate) de TSMC. Combinée, chaque puce Trainium2 offre 1,3 pétaflops de performance dense FP8, 96 Go de HBM (high-bandwidth memory) et 2,9 To/s de bande passante mémoire. En comparaison, B200 de Nvidia affiche 4,5 pétaflops de FP8 dense, 192 Go de HBM3e et 8 To/s de bande passante mémoire.
La prise en charge de la sparsité 4x, qui peut accélérer considérablement les charges de travail d'entraînement de l'IA, aide le Tranium2 à combler l'écart, en augmentant les performances FP8 à 5,2 pétaflops, mais il reste derrière la puce B200 de Nvidia avec 9 pétaflops de calcul sparse à la même précision. Si le Tranium2 semble un peu anémique dans une comparaison puce à puce avec les derniers accélérateurs de Nvidia, ce n'est pas tout à fait le cas.
L'architecture UltraServer résout l'un des principaux goulots d'étranglement de l'entraînement de l'IA : la latence. Chaque serveur intègre 64 puces Trainium2 et exploite Amazon NeuronLink v2, l'interconnexion puce à puce et serveur à serveur propriétaire de l'entreprise. Les principales améliorations sont :
- deux fois plus de bande passante que la génération précédente ;
- optimisation de la latence adaptée aux étapes du pipeline de formation de l'IA ;
- évolutivité vers des clusters de plus de 100 000 puces interconnectées.
AWS compare NeuronLink v2 à NVLink de Nvidia, mais avec une intégration plus étroite dans la pile logicielle et infrastructurelle d'AWS, ce qui permet d'optimiser les performances à tous les niveaux du système. Chaque UltraServer est une plateforme de calcul partagée à haut débit, conçue avec une fiabilité de niveau entreprise et un système de refroidissement liquide qui permet de fournir en continu jusqu'à 332 pétaflops de performances FP8 clairsemées.
Le châssis comprend 8 To de mémoire à bande passante élevée et deux alimentations redondantes, ce...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.