IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Project Rainier : Amazon construit un gigantesque cluster de supercalculateurs qui comprend des « centaines de milliers » de ses puces Trainium2 et est dédié à la formation des modèles d'IA d'Anthropic

Le , par Mathis Lucas

0PARTAGES

3  0 
Project Rainier : Amazon construit un gigantesque cluster de supercalculateurs qui comprend des « centaines de milliers » de ses puces Trainium2 et est dédié à la formation des modèles d'IA d'Anthropic

Amazon se lance dans la construction de l'un des plus grands clusters de supercalculateurs pour l'IA au monde avec le projet Rainier. Cette infrastructure comprendra un immense cluster composé de centaines de milliers d'accélérateurs et devrait être opérationnelle dans le courant de l'année dans divers sites aux États-Unis. Un site dans l'Indiana comprendra trente centres de données, chacun d'une superficie de 18 580 mètres carrés et consommant collectivement environ 2,2 gigawatts d'électricité. Mais Rainier et les projets comme Stargate d'OpenAI et Colossus de xAI suscitent de sérieuses inquiétudes quant à leur impact environnemental.

Amazon est désormais en bonne voie pour créer et déployer ce qu'il présente comme l'ordinateur le plus puissant au monde pour l'entraînement de modèles d'IA. Le projet Rainier a été annoncé pour la première fois lors de l'événement Re:Invent à Las Vegas à la fin de l'année dernière. Il est développé avec Anthropic, soutenu par le géant du cloud computing. En mars 2024, Amazon a annoncé un investissement de 4 milliards de dollars dans Anthropic.

Il s'agit d'un projet multisite semblable à Stargate d'OpenAI et non d'une installation unique comme le supercalculateur Colossus de la startup xAI d'Elon Musk. Cela signifie que le projet Rainier pourrait ne pas avoir de limites supérieures. Dans un billet de blogue, Amazon a présenté les détails du projet Rainier.

Quelques caractéristiques importantes du projet Rainier d'Amazon

Rainier s'articule autour d'un immense UltraCluster EC2 composé d'UltraServers Trainium2, propulsé par des centaines de milliers de puces d'IA Trainium2. Ces puces de deuxième génération intègrent du silicium personnalisé développé par Annapurna Labs et sont spécialement conçues pour l'entraînement de modèles d'IA à grande échelle. (Annapurna Labs est une filiale d'Amazon. Le géant du commerce électronique a acquis la startup pour sa division AWS.)


Selon les informations rendues publiques, chaque UltraServer abrite 64 accélérateurs d'IA Trainium2 et offre environ 332 pétaflops de performances de calcul FP8 clairsemées. Mais au-delà de la puissance de calcul brute, ce qui distingue véritablement cette initiative, c'est son architecture distribuée.

Plutôt que d'être concentré en un seul endroit, Rainier s'étend sur plusieurs centres de données AWS à travers le pays, ce qui permet d'optimiser la puissance et la température, tout en restant étroitement intégré grâce au réseau EFA (Elastic Fabric Adapter) d'AWS, qui fournit une interconnexion à très faible latence. Cette architecture permet à une infrastructure géographiquement dispersée de fonctionner comme un système d'entraînement unifié.

Citation Envoyé par Gadi Hutt, directeur de l'ingénierie produit et client chez Annapurna Labs


Rainier fournira une puissance de calcul cinq fois supérieure à celle du plus grand cluster d'entraînement utilisé actuellement par Anthropic. Pour un modèle de pointe comme Claude, plus vous consacrez de ressources informatiques à sa formation, plus il sera intelligent et précis. Nous développons une puissance de calcul à une échelle jamais vue auparavant, et ce à une vitesse et avec une agilité sans précédent.

Rainier s'inscrit dans le cadre d'un investissement plus large de 100 milliards de dollars d'AWS dans l'infrastructure d'IA. Le projet fait progresser la stratégie à long terme d'AWS en matière d'intégration verticale profonde, permettant à l'entreprise de réduire sa dépendance vis-à-vis des GPU de Nvidia en développant son propre matériel de formation, en réduisant les coûts et en accélérant la mise sur le marché de grands modèles de langage (LLM).

Au cœur de l'architecture UltraServer piloté par Trainium2 d'AWS

Le cœur de Rainier est l'accélérateur Trainium2, un nœud d'entraînement haute performance conçu par AWS. En dépit de ce que son nom pourrait suggérer, la puce peut être utilisée pour les charges de travail d'entraînement et d'inférence, ce qui sera pratique pour les clients qui utilisent l'apprentissage par renforcement (RL), comme nous l'avons vu avec les modèles DeepSeek-R1 et o1 d'OpenAI, afin d'imprégner leurs IA de capacités de raisonnement.


La puce elle-même est composée d'une paire de puces de calcul de 5 nm collées ensemble grâce à la technologie d'emballage CoWoS (chip-on-wafer-on-substrate) de TSMC. Combinée, chaque puce Trainium2 offre 1,3 pétaflops de performance dense FP8, 96 Go de HBM (high-bandwidth memory) et 2,9 To/s de bande passante mémoire. En comparaison, B200 de Nvidia affiche 4,5 pétaflops de FP8 dense, 192 Go de HBM3e et 8 To/s de bande passante mémoire.

La prise en charge de la sparsité 4x, qui peut accélérer considérablement les charges de travail d'entraînement de l'IA, aide le Tranium2 à combler l'écart, en augmentant les performances FP8 à 5,2 pétaflops, mais il reste derrière la puce B200 de Nvidia avec 9 pétaflops de calcul sparse à la même précision. Si le Tranium2 semble un peu anémique dans une comparaison puce à puce avec les derniers accélérateurs de Nvidia, ce n'est pas tout à fait le cas.

L'architecture UltraServer résout l'un des principaux goulots d'étranglement de l'entraînement de l'IA : la latence. Chaque serveur intègre 64 puces Trainium2 et exploite Amazon NeuronLink v2, l'interconnexion puce à puce et serveur à serveur propriétaire de l'entreprise. Les principales améliorations sont :

  • deux fois plus de bande passante que la génération précédente ;
  • optimisation de la latence adaptée aux étapes du pipeline de formation de l'IA ;
  • évolutivité vers des clusters de plus de 100 000 puces interconnectées.


AWS compare NeuronLink v2 à NVLink de Nvidia, mais avec une intégration plus étroite dans la pile logicielle et infrastructurelle d'AWS, ce qui permet d'optimiser les performances à tous les niveaux du système. Chaque UltraServer est une plateforme de calcul partagée à haut débit, conçue avec une fiabilité de niveau entreprise et un système de refroidissement liquide qui permet de fournir en continu jusqu'à 332 pétaflops de performances FP8 clairsemées.

Le châssis comprend 8 To de mémoire à bande passante élevée et deux alimentations redondantes, ce qui souligne la fiabilité à grande échelle. En concevant et en fabriquant ses propres puces, serveurs et infrastructures de soutien, AWS s'offre un contrôle de bout en bout de la pile IA, depuis le niveau silicium jusqu'à la pile logicielle, la topologie réseau et même la disposition physique et l'architecture électrique des centres de données qui les hébergent.

Rami Sinno, directeur de l'ingénierie chez Annapurna Lab, explique à propos de ce contrôle : « lorsque vous avez une vue d'ensemble complète, depuis la puce jusqu'au logiciel, en passant par les serveurs eux-mêmes, vous pouvez alors procéder à des optimisations là où elles sont les plus pertinentes. Parfois, la meilleure solution consiste à repenser la manière dont l'alimentation est fournie aux serveurs ou à réécrire le logiciel qui coordonne l'ensemble ».

« Comme nous avons une vue d'ensemble de tout, à tous les niveaux, nous pouvons résoudre les problèmes rapidement et innover beaucoup plus vite », a ajouté Rami Sinno. Anthropic utilisera ce tout nouveau cluster de calcul d'IA pour construire et déployer les futures versions de son modèle d'IA Claude.

Rainier : une des installations d'IA les plus énergivores au monde

Amazon construit ce qui sera à terme l'une des infrastructures d'IA les plus énergivores au monde. Le site de l'Indiana pourrait consommer jusqu'à 2,2 gigawatts d’électricité. C’est plus que ce que consomme une ville moyenne. Si cette énergie provient majoritairement de centrales à charbon (comme c’est souvent le cas en Indiana), les émissions seront énormes. Pour l’instant, Amazon ne garantit pas une alimentation 100 % renouvelable pour le projet Rainier.


Le projet Rainier pourrait induire une nouvelle pression sur la ressource en eau dans les régions qui abriteront les différents sites. En effet, les centres de données chauffent beaucoup et nécessitent un refroidissement intensif. Certaines entreprises utilisent des systèmes à eau, très gourmands. Résultat : des millions de litres d’eau pourraient être pompés chaque jour. Dans une région sujette à la sécheresse ou au stress hydrique, c’est une vraie source de tension.

En outre, il y a l’impact de la construction elle-même. Rainier implique la fabrication de centaines de milliers de puces Trainium, la construction de dizaines de centres de données et de serveurs géants. Tout ça, c’est du béton, de l’acier, de l’électronique, des transports : une empreinte carbone massive en amont.

Dans son billet de blogue, Gadi Hutt note : « nos équipes d'ingénieurs chargées des centres de données, qu'il s'agisse de la disposition des racks, de la distribution électrique ou des techniques de refroidissement, innovent en permanence pour améliorer l'efficacité énergétique. Quelle que soit l'échelle à laquelle AWS opère, nous gardons toujours à l'esprit nos objectifs de durabilité ». Pour l'heure, Amazon ne donne pas de détails sur l'origine de l’énergie.

Les efforts de compensation carbone ou les stratégies d’économie d’eau ne sont pas connus. Selon Amazon, l'entreprise a couvert 100 % de sa consommation d'énergie avec des énergies renouvelables en 2023, atteignant ainsi son objectif de 100 % d'énergies renouvelables d'ici 2030 avec sept ans d'avance. Mais un groupe d'employés d'Amazon a souligné l'année dernière qu'il s'agit plutôt de 22 % et a accusé l'entreprise de déclarations trompeuses.

Le groupe a examiné l'emplacement de chaque centre de données et la répartition de l'énergie sur les réseaux régionaux (la part du charbon, du gaz ou du pétrole par rapport à l'énergie solaire ou éolienne). Amazon et d'autres Big Tech achètent des crédits d'énergie renouvelable pour une certaine quantité d'énergie propre produite par une centrale solaire ou un parc éolien. En théorie, cela est censé encourager la construction de nouvelles énergies renouvelables.

Stargate et Rainier : des projets surdimensionnés pour l'ère de l'IA

Avec le projet Rainier, AWS marque un tournant décisif dans la course effrénée à la domination de l'hyperscale. Grâce à sa puce Trainium2, ses interconnexions propriétaires et son architecture de centre de données verticalement intégrée, Amazon rejoint le trio des géants technologiques, aux côtés du projet Stargate de Microsoft (OpenAI) et des clusters TPUv5 de Google, qui redéfinissent rapidement l'avenir des infrastructures d'IA.

Mais Rainier représente bien plus qu'un simple cluster haute performance. Il arrive à un moment où la taille, la vitesse et l'ambition des projets d'infrastructure d'IA ont atteint des niveaux sans précédent. Selon certains analystes, le développement des centres de données a officiellement atteint son apogée. Autrefois concept ambitieux, le campus à l'échelle du gigawatt est désormais en train de se concrétiser, mais ces projets suscitent plusieurs inquiétudes.

À l'instar du projet Stargate d'OpenAI dans l'Iowa ou des SuperClusters de recherche en IA de Meta, AWS est en train de tout repenser, des puces et interconnexions aux systèmes de refroidissement et à la distribution électrique, afin d'optimiser l'entraînement à grande échelle des modèles d'IA.

Amazon est resté assez vague quant à la taille finale du projet Rainier. Il a déjà affirmé que le système contiendrait plusieurs centaines de milliers de puces Trainium2. Dans son dernier billet de blogue, le géant de Seattle a déclaré que « lorsque vous connectez des dizaines de milliers de ces UltraServers et que vous les dirigez tous vers le même problème, vous obtenez le projet Rainier ». Mais elle n'a pas partagé d'autres informations à ce sujet.

Amazon n'a pas précisé la quantité d'énergie consommée par ses puces. Le billet de blogue ne fournit pas d'information à ce sujet. Mais en supposant que la quantité d'énergie consommée soit d'environ 500 watts, un cluster d'environ 256 000 puces Tranium2 pourrait nécessiter entre 250 et 300 mégawatts d'énergie. À titre de référence, cela correspond à peu près au supercalculateur Colossus de xAI d'Elon Musk, qui contient 200 000 GPU Hopper de Nvidia.

Conclusion

En fin de compte, le projet Rainier confirme une vérité plus large : la frontière de l'IA n'est plus définie uniquement par les algorithmes, mais par l'infrastructure qui les rend possibles. Et sur le marché actuel, cette infrastructure est spécialement conçue à très grande échelle. Le coût du projet Rainier reste inconnu, mais cette infrastructure pourrait permettre à Amazon de concurrencer directement l'infrastructure Stargate de 500 milliards de dollars d'OpenAI.

Avec Stargate, OpenAI vise à investir 500 milliards de dollars sur les quatre prochaines années pour construire « la plus grande infrastructure de formation de l'IA au monde ». Stargate est une collaboration entre OpenAI, SoftBank, Oracle et d'autres partenaires tels que Microsoft. Cependant, des rapports récents font état d'obstacles majeurs pour l'ambitieux projet, en grande partie attribués aux politiques mises en place par la présidence de Donald Trump.

Les entreprises font preuve d'un manque de transparence concernant la consommation énergétique de ces projets et l'impact sur leurs engagements climatiques. Il y a peu d’informations sur les sources d’énergie exactes utilisées et très peu de détails publics sur les mesures de compensation carbone, s’il y en a.

De son côté, xAI vient d'obtenir un permis d'émission atmosphérique à Memphis. Le centre de données qui abrite le supercalculateur Colossus de xAI est autorisé à exploiter 15 turbines à méthane. Le permis impose à xAI le respect d'une série de restrictions destinées à minimiser la pollution, mais cette décision suscite l'indignation des communautés locales et des responsables environnementaux qui affirment que les générateurs polluent leurs quartiers.

Selon les plaintes, l'installation de xAI libère une panoplie de gaz toxiques pour l'homme, dont le formaldéhyde, un agent cancérigène connu. Alors que xAI a obtenu un permis d'exploitation pour 15 turbines, une plainte allègue qu'au moins 24 turbines sont encore installées sur le site de xAI.

Source : Amazon

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de l'immense cluster de supercalculateurs d'IA en cours de construction par Amazon ?
Que pensez-vous de la consommation d'énergie estimée du site du projet Rainier basé dans l'Indiana ?
Quid des préoccupations liées à impact environnemental de ce projet ?

Voir aussi

Le projet Stargate d'OpenAI, 500 milliards de $ sur les quatre prochaines années pour construire de nouvelles infrastructures d'IA aux USA, peine à décoller en raison des droits de douane de Donald Trump

Amazon investit 4 milliards de dollars dans Anthropic et se lance dans une guerre de l'IA avec Microsoft et Google
De Claude à Claude-Next, le pari audacieux d'Amazon sur l'IA d'Anthropic


Amazon affirme que l'entreprise fonctionne désormais à 100 % avec de l'énergie propre, mais les employés disent qu'il s'agit plutôt de 22 % et accusent l'entreprise de déclarations trompeuses
Vous avez lu gratuitement 37 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !