AWS a lancé l'un des plus grands centres de données IA opérationnels au monde, avec son complexe de superordinateurs Project Rainier dans l'Indiana. Le site situé près du lac Michigan sera utilisé pour former le modèle d'IA Claude d'Anthropic, à l'aide de près d'un demi-million de puces Trainium2 développées en interne par AWS, avec l'intention de passer à plus d'un million d'ici la fin de l'année.Amazon Web Services (AWS) est une division du groupe américain de commerce électronique Amazon, spécialisée dans les services de cloud computing à la demande pour les entreprises et particuliers. En septembre 2023, AWS a annoncé qu'il deviendrait le principal fournisseur de services cloud de la start-up Anthropic, spécialisée dans l'intelligence artificielle. Amazon s'est engagé à investir jusqu'à 4 milliards de dollars dans Anthropic et détiendra une participation minoritaire dans la société.
Anthropic a été créée en 2021 par d'anciens chercheurs d'OpenAI après avoir obtenu un financement initial de 124 millions de dollars. Les fondateurs ont été motivés par les préoccupations concernant la sécurité et l'éthique des systèmes d'IA avancés. Ainsi, Anthropic vise à développer l'intelligence artificielle générale (AGI) avec des pratiques de sécurité rigoureuses. Anthropic a notamment développé la série de grands modèles de langage Claude. C'est aussi le nom de l'agent conversationnel (chatbot) utilisant ce modèle pour dialoguer avec les utilisateurs.
Pour améliorer les performances de l'IA et l'infrastructure des données, Amazon a annoncé en novembre 2024 développer ses propres puces d'IA sous la direction de son laboratoire Annapurna Labs pour concurrencer Nvidia. Amazon a acheté Annapurna Labs en 2015 pour 350 millions de dollars, et le laboratoire a testé Trainium 2, un kit destiné à consolider la position d'Amazon dans la sphère de l'IA. En supprimant Nvidia de l'équation, l'entreprise vise à réduire non seulement les dépenses liées à la production, mais aussi celles liées à l'exploitation des puces.
Puis en juillet 2025, Amazon s'est lancé dans la construction de l'un des plus grands clusters de supercalculateurs pour l'IA au monde avec le projet Rainier. Cette infrastructure comprendra un immense cluster composé de centaines de milliers d'accélérateurs et devrait être opérationnelle dans le courant de l'année dans divers sites aux États-Unis. Un site dans l'Indiana comprendra trente centres de données, chacun d'une superficie de 18 580 mètres carrés et consommant collectivement environ 2,2 gigawatts d'électricité. Mais Rainier et les projets comme Stargate d'OpenAI et Colossus de xAI suscitent de sérieuses inquiétudes quant à leur impact environnemental.
Récemment, AWS a lancé l'un des plus grands centres de données IA opérationnels au monde, avec son complexe de superordinateurs Project Rainier dans l'Indiana. Le site situé près du lac Michigan sera utilisé pour former le modèle d'IA Claude d'Anthropic, à l'aide de près d'un demi-million de puces Trainium2 développées en interne par AWS, avec l'intention de passer à plus d'un million d'ici la fin de l'année.
Contrairement aux puces à usage général, AWS affirme que Trainium2 est spécialement conçu pour traiter « les énormes quantités de données » nécessaires à la formation des modèles d'IA dans le cadre de tâches complexes. Avec le projet Rainier, AWS a déjà mis en place une infrastructure Trainium 2 qui est 70 % plus grande que toute autre plateforme informatique d'IA dans l'histoire d'AWS et qui offre plus de cinq fois la puissance de calcul utilisée par Anthropic pour former ses précédents modèles d'IA.
Les plans du projet ont été annoncés pour la première fois l'année dernière, lorsque AWS a déclaré qu'il allait construire un cluster informatique d'IA réparti sur plusieurs centres de données aux États-Unis. Le projet Rainier, d'un montant de 11 milliards de dollars, représente la première étape de cette initiative et une étape importante dans l'engagement d'AWS à développer rapidement son infrastructure d'IA.
« Le projet Rainier est l'une des entreprises les plus ambitieuses d'AWS à ce jour », a déclaré Ron Diamant, architecte en chef de Trainium. « Il s'agit d'un projet d'infrastructure gigantesque et unique en son genre qui ouvrira la voie à la prochaine génération de modèles d'intelligence artificielle. » Bien que l'étendue totale du projet n'ait pas été dévoilée, AWS devrait construire 23 bâtiments supplémentaires à l'avenir, ce qui porterait la capacité du centre de données du site à plus de 2,2 gigawatts.
Cette nouvelle intervient alors que les géants de la technologie se livrent une course effrénée pour prendre l'avantage dans le domaine des puces IA. La semaine dernière, Anthropic a annoncé qu'elle utiliserait 1 million de puces personnalisées de Google, dans le cadre d'un partenariat estimé à « plusieurs dizaines de milliards » de dollars selon Anthropic. Le 15 octobre, Nvidia, Microsoft, xAI et BlackRock ont conclu un accord de 40 milliards de dollars pour racheter Aligned Data Centers, tandis qu'en septembre, Nvidia a investi 100 milliards de dollars dans OpenAI, rival d'Anthropic et créateur de ChatGPT.
Cette annonce vise à supporter la charge de travail de l'IA d'Anthropic. En effet, depuis août 2025, l’éditeur du modèle Claude, jusqu’ici réputée pour son approche prudente et orientée « sécurité », a révisé ses Conditions générales et sa Politique de confidentialité. Désormais, les données issues des conversations des utilisateurs de Claude pourront être utilisées pour entraîner les modèles — sauf en cas de refus explicite. Pour beaucoup d’observateurs, il s’agit d’un tournant stratégique, dicté à la fois par la nécessité de rester compétitif et par les exigences financières colossales que représente l’entraînement des modèles de nouvelle génération.
AWS active le projet Rainier : l'un des plus grands clusters informatiques d'IA au monde est mis en service
Le projet Rainier, qui tire son nom du stratovolcan de 4 392 mètres d'altitude visible depuis Seattle par temps clair, est une entreprise aussi monumentale que son homonyme. Réparti sur plusieurs centres de données aux États-Unis, l'ampleur du projet est sans précédent dans l'histoire d'AWS. « Le projet Rainier est l'une des entreprises les plus ambitieuses d'AWS à ce jour », a déclaré Ron Diamant, ingénieur émérite chez AWS et architecte en chef de Trainium. « Il s'agit d'un projet d'infrastructure gigantesque et unique en son genre qui ouvrira la voie à la prochaine génération de modèles d'intelligence artificielle. »
Pour concrétiser cette vision audacieuse, le projet Rainier est conçu comme un gigantesque « EC2 UltraCluster of Trainium2 UltraServers ». La première partie fait référence à Amazon Elastic Compute Cloud (EC2), un service AWS qui permet aux clients de louer des ordinateurs virtuels dans le cloud plutôt que d'acheter et de maintenir leurs propres serveurs physiques. Le plus intéressant est Trainium2, une puce IA AWS conçue sur mesure spécialement pour l'entraînement des systèmes d'intelligence artificielle. Contrairement aux puces à usage général de votre ordinateur portable ou de votre téléphone, Trainium2 est spécialisée dans le traitement des énormes quantités de données nécessaires pour apprendre aux modèles d'IA à accomplir rapidement toutes sortes de tâches différentes et de plus en plus complexes.
Avec le projet Rainier, AWS a déjà construit une infrastructure Trainium2 qui est 70 % plus grande que toute autre plateforme informatique IA dans l'histoire d'AWS. Pour mettre en perspective la puissance de Trainium2, une seule puce est capable d'effectuer des trillions de calculs par seconde. Si cela est difficile à visualiser, ce qui est compréhensible, imaginez qu'il faudrait plus de 31 700 ans à une personne pour compter jusqu'à un trillion. Une tâche qui prendrait des millénaires à un être humain peut être accomplie en un clin d'œil avec Trainium2.
Le projet Rainier n'utilise pas seulement une ou quelques puces. C'est là qu'interviennent les UltraServers et les UltraClusters. Traditionnellement, les serveurs d'un centre de données fonctionnent de manière indépendante. Lorsqu'ils ont besoin de partager des informations, ces données doivent transiter par des commutateurs réseau externes. Cela introduit une latence, ce qui n'est pas idéal à une telle échelle.
La réponse d'AWS à ce problème est l'UltraServer. Nouvellement conçu, l'UltraServer combine quatre serveurs physiques Trainium2, chacun doté de 16 puces Trainium2. Ils communiquent via des connexions haut débit spécialisées appelées « NeuronLinks ». Reconnaissables à leurs câbles bleus distinctifs, les NeuronLinks sont comme des voies rapides dédiées, permettant aux données de circuler beaucoup plus rapidement au sein du système et d'accélérer considérablement les calculs complexes sur les 64 puces. Lorsque vous connectez des dizaines de milliers de ces UltraServers et que vous les orientez tous vers le même problème, vous obtenez le projet Rainier, un méga « UltraCluster ».
Contrôle de la pile
La communication entre les composants s'effectue à deux niveaux critiques : les NeuronLinks fournissent des connexions à haut débit au sein des UltraServers, tandis que la technologie de mise en réseau Elastic Fabric Adapter (EFA) (identifiée par ses câbles jaunes) relie les UltraServers à l'intérieur et entre les centres de données. Cette approche à deux niveaux maximise la vitesse là où elle est le plus nécessaire tout en conservant la flexibilité nécessaire pour s'adapter à plusieurs bâtiments de centres de données.
Jusqu'ici, tout va bien, mais l'exploitation et la maintenance d'un cluster de calcul aussi énorme ne sont pas sans difficultés. Pour garantir que toute cette capacité gigantesque soit disponible pour les clients, la fiabilité est primordiale. C'est là que l'approche de l'entreprise en matière de développement matériel et logiciel prend tout son sens. Contrairement à la plupart des autres fournisseurs de cloud, AWS construit son propre matériel et peut ainsi contrôler tous les aspects de la pile technologique, des plus petits composants d'une puce au logiciel qui y est exécuté, en passant par la conception complète du centre de données lui-même.
Cette intégration verticale confère à AWS un avantage pour accélérer l'apprentissage automatique et réduire les obstacles financiers à l'accessibilité de l'IA. Grâce à sa visibilité sur l'ensemble de la pile, de la conception des puces à la mise en œuvre des logiciels en passant par l'architecture des serveurs, AWS peut optimiser le système à des endroits précis. Parfois, la solution consiste à repenser les systèmes d'alimentation électrique, parfois à réécrire le logiciel qui coordonne l'ensemble des opérations, et souvent à mettre en œuvre toutes ces solutions simultanément. En conservant une vue d'ensemble de chaque composant et de chaque niveau du système, AWS peut résoudre les problèmes et innover à un rythme soutenu.
[ATTACH...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.