
Amazon est désormais en bonne voie pour créer et déployer ce qu'il présente comme l'ordinateur le plus puissant au monde pour l'entraînement de modèles d'IA. Le projet Rainier a été annoncé pour la première fois lors de l'événement Re:Invent à Las Vegas à la fin de l'année dernière. Il est développé avec Anthropic, soutenu par le géant du cloud computing. En mars 2024, Amazon a annoncé un investissement de 4 milliards de dollars dans Anthropic.
Il s'agit d'un projet multisite semblable à Stargate d'OpenAI et non d'une installation unique comme le supercalculateur Colossus de la startup xAI d'Elon Musk. Cela signifie que le projet Rainier pourrait ne pas avoir de limites supérieures. Dans un billet de blogue, Amazon a présenté les détails du projet Rainier.
Quelques caractéristiques importantes du projet Rainier d'Amazon
Rainier s'articule autour d'un immense UltraCluster EC2 composé d'UltraServers Trainium2, propulsé par des centaines de milliers de puces d'IA Trainium2. Ces puces de deuxième génération intègrent du silicium personnalisé développé par Annapurna Labs et sont spécialement conçues pour l'entraînement de modèles d'IA à grande échelle. (Annapurna Labs est une filiale d'Amazon. Le géant du commerce électronique a acquis la startup pour sa division AWS.)
Selon les informations rendues publiques, chaque UltraServer abrite 64 accélérateurs d'IA Trainium2 et offre environ 332 pétaflops de performances de calcul FP8 clairsemées. Mais au-delà de la puissance de calcul brute, ce qui distingue véritablement cette initiative, c'est son architecture distribuée.
Plutôt que d'être concentré en un seul endroit, Rainier s'étend sur plusieurs centres de données AWS à travers le pays, ce qui permet d'optimiser la puissance et la température, tout en restant étroitement intégré grâce au réseau EFA (Elastic Fabric Adapter) d'AWS, qui fournit une interconnexion à très faible latence. Cette architecture permet à une infrastructure géographiquement dispersée de fonctionner comme un système d'entraînement unifié.

Au cœur de l'architecture UltraServer piloté par Trainium2 d'AWS
Le cœur de Rainier est l'accélérateur Trainium2, un nœud d'entraînement haute performance conçu par AWS. En dépit de ce que son nom pourrait suggérer, la puce peut être utilisée pour les charges de travail d'entraînement et d'inférence, ce qui sera pratique pour les clients qui utilisent l'apprentissage par renforcement (RL), comme nous l'avons vu avec les modèles DeepSeek-R1 et o1 d'OpenAI, afin d'imprégner leurs IA de capacités de raisonnement.
La puce elle-même est composée d'une paire de puces de calcul de 5 nm collées ensemble grâce à la technologie d'emballage CoWoS (chip-on-wafer-on-substrate) de TSMC. Combinée, chaque puce Trainium2 offre 1,3 pétaflops de performance dense FP8, 96 Go de HBM (high-bandwidth memory) et 2,9 To/s de bande passante mémoire. En comparaison, B200 de Nvidia affiche 4,5 pétaflops de FP8 dense, 192 Go de HBM3e et 8 To/s de bande passante mémoire.
La prise en charge de la sparsité 4x, qui peut accélérer considérablement les charges de travail d'entraînement de l'IA, aide le Tranium2 à combler l'écart, en augmentant les performances FP8 à 5,2 pétaflops, mais il reste derrière la puce B200 de Nvidia avec 9 pétaflops de calcul sparse à la même précision. Si le Tranium2 semble un peu anémique dans une comparaison puce à puce avec les derniers accélérateurs de Nvidia, ce n'est pas tout à fait le cas.
L'architecture UltraServer résout l'un des principaux goulots d'étranglement de l'entraînement de l'IA : la latence. Chaque serveur intègre 64 puces Trainium2 et exploite Amazon NeuronLink v2, l'interconnexion puce à puce et serveur à serveur propriétaire de l'entreprise. Les principales améliorations sont :
- deux fois plus de bande passante que la génération précédente ;
- optimisation de la latence adaptée aux étapes du pipeline de formation de l'IA ;
- évolutivité vers des clusters de plus de 100 000 puces interconnectées.
AWS compare NeuronLink v2 à NVLink de Nvidia, mais avec une intégration plus étroite dans la pile logicielle et infrastructurelle d'AWS, ce qui permet d'optimiser les performances à tous les niveaux du système. Chaque UltraServer est une plateforme de calcul partagée à haut débit, conçue avec une fiabilité de niveau entreprise et un système de refroidissement liquide qui permet de fournir en continu jusqu'à 332 pétaflops de performances FP8 clairsemées.
Le châssis comprend 8 To de mémoire à bande passante élevée et deux alimentations redondantes, ce qui souligne la fiabilité à grande échelle. En concevant et en fabriquant ses propres puces, serveurs et infrastructures de soutien, AWS s'offre un contrôle de bout en bout de la pile IA, depuis le niveau silicium jusqu'à la pile logicielle, la topologie réseau et même la disposition physique et l'architecture électrique des centres de données qui les hébergent.
Rami Sinno, directeur de l'ingénierie chez Annapurna Lab, explique à propos de ce contrôle : « lorsque vous avez une vue d'ensemble complète, depuis la puce jusqu'au logiciel, en passant par les serveurs eux-mêmes, vous pouvez alors procéder à des optimisations là où elles sont les plus pertinentes. Parfois, la meilleure solution consiste à repenser la manière dont l'alimentation est fournie aux serveurs ou à réécrire le logiciel qui coordonne l'ensemble ».
« Comme nous avons une vue d'ensemble de tout, à tous les niveaux, nous pouvons résoudre les problèmes rapidement et innover beaucoup plus vite », a ajouté Rami Sinno. Anthropic utilisera ce tout nouveau cluster de calcul d'IA pour construire et déployer les futures versions de son modèle d'IA Claude.
Rainier : une des installations d'IA les plus énergivores au monde
Amazon construit ce qui sera à terme l'une des infrastructures d'IA les plus énergivores au monde. Le site de l'Indiana pourrait consommer jusqu'à 2,2 gigawatts d’électricité. C’est plus que ce que consomme une ville moyenne. Si cette énergie provient majoritairement de centrales à charbon (comme c’est souvent le cas en Indiana), les émissions seront énormes. Pour l’instant, Amazon ne garantit pas une alimentation 100 % renouvelable pour le projet Rainier.
Le projet Rainier pourrait induire une nouvelle pression sur la ressource en eau dans les régions qui abriteront les différents sites. En effet, les centres de données chauffent beaucoup et nécessitent un refroidissement intensif. Certaines entreprises utilisent des systèmes à eau, très gourmands. Résultat : des millions de litres d’eau pourraient être pompés chaque jour. Dans une région sujette à la sécheresse ou au stress hydrique, c’est une vraie source de tension.
En outre, il y a l’impact de la construction elle-même. Rainier implique la fabrication de centaines de milliers de puces Trainium, la construction de dizaines de centres de données et de serveurs géants. Tout ça, c’est du béton, de l’acier, de l’électronique, des transports : une empreinte carbone massive en amont.
Dans son billet de blogue, Gadi Hutt note : « nos équipes d'ingénieurs chargées des centres de données, qu'il s'agisse de la disposition des racks, de la distribution électrique ou des techniques de refroidissement, innovent en permanence pour améliorer l'efficacité énergétique. Quelle que soit l'échelle à laquelle AWS opère, nous gardons toujours à l'esprit nos objectifs de durabilité ». Pour l'heure, Amazon ne donne pas de détails sur l'origine de l’énergie.
Les efforts de compensation carbone ou les stratégies d’économie d’eau ne sont pas connus. Selon Amazon, l'entreprise a couvert 100 % de sa consommation d'énergie avec des énergies renouvelables en 2023, atteignant ainsi son objectif de 100 % d'énergies renouvelables d'ici 2030 avec sept ans d'avance. Mais un groupe d'employés d'Amazon a souligné l'année dernière qu'il s'agit plutôt de 22 % et a accusé l'entreprise de déclarations trompeuses.
Le groupe a examiné l'emplacement de chaque centre de données et la répartition de l'énergie sur les réseaux régionaux (la part du charbon, du gaz ou du pétrole par rapport à l'énergie solaire ou éolienne). Amazon et d'autres Big Tech achètent des crédits d'énergie renouvelable pour une certaine quantité d'énergie propre produite par une centrale solaire ou un parc éolien. En théorie, cela est censé encourager la construction de nouvelles énergies renouvelables.
Stargate et Rainier : des projets surdimensionnés pour l'ère de l'IA
Avec le projet Rainier, AWS marque un tournant décisif dans la course effrénée à la domination de l'hyperscale. Grâce à sa puce Trainium2, ses interconnexions propriétaires et son architecture de centre de données verticalement intégrée, Amazon rejoint le trio des géants technologiques, aux côtés du projet Stargate de Microsoft (OpenAI) et des clusters TPUv5 de Google, qui redéfinissent rapidement l'avenir des infrastructures d'IA.
Mais Rainier représente bien plus qu'un simple cluster haute performance. Il arrive à un moment où la taille, la vitesse et l'ambition des projets d'infrastructure d'IA ont atteint des niveaux sans précédent. Selon certains analystes, le développement des centres de données a officiellement atteint son apogée....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.