Microsoft lance sa puce IA de deuxième génération, Maia 200, afin de proposer une alternative aux processeurs leaders de Nvidia et aux offres de ses concurrents dans le domaine du cloud, Amazon et Google

Le 27 janvier 2026 à 20:20, par Anthony

3PARTAGES

Microsoft a lancé sa puce d'intelligence artificielle (IA) de deuxième génération, Maia 200, qui se positionne comme une alternative potentielle aux processeurs leaders de Nvidia et aux offres de ses concurrents dans le domaine du cloud, Amazon et Google. Fabriquée à l'aide de la technologie de 3 nanomètres de Taiwan Semiconductor Manufacturing Company (TSMC), cette puce est optimisée pour l'inférence à grande échelle et offre, selon l'entreprise, des performances jusqu'à 30 % supérieures par dollar pour les charges de travail d'IA. La puce Maia 200 est déjà déployée dans certains centres de données américains et sera d'abord mise à la disposition des divisions internes de Microsoft, notamment de l'équipe Superintelligence dirigée par Mustafa Suleyman, avant d'être rendue accessible aux développeurs, chercheurs et entreprises clientes via Azure.

Ce lancement intervient deux ans après l'annonce par Microsoft du développement d'Azure Maia 100, sa première puce IA sur mesure optimisée pour l'IA générative. Cette puce de silicium personnalisée a été conçue pour alimenter les centres de données Azure de Microsoft et préparer l'entreprise et ses clients à un avenir tourné vers l'IA. Cependant, la puce Maia 100 n'a jamais été mise à la disposition des clients cloud.

Cette fois-ci, ce sera différent. Scott Guthrie, vice-président exécutif de Microsoft chargé du cloud et de l'IA, a déclaré dans un article de blog que la nouvelle puce serait « plus largement disponible pour les clients à l'avenir ».

Dans un message publié sur X, anciennement Twitter, le PDG de Microsoft, Satya Nadella, a déclaré : « Notre tout dernier accélérateur d'IA, Maia 200, est désormais en ligne dans Azure. Conçu pour offrir une efficacité d'inférence à la pointe du secteur, il offre des performances 30 % supérieures par dollar aux systèmes actuels. Et avec un débit de plus de 10 PFLOPS FP4, environ 5 PFLOPS FP8 et 216 Go de HBM3e avec une bande passante mémoire de 7 To/s, il est optimisé pour les charges de travail IA à grande échelle. Il vient compléter notre large gamme de processeurs, de cartes graphiques et d'accélérateurs personnalisés, offrant ainsi aux clients davantage d'options pour exécuter des charges de travail IA avancées plus rapidement et de manière plus rentable sur Azure. »

Scott Guthrie a qualifié Maia 200 de « système d'inférence le plus efficace jamais déployé par Microsoft ». Les développeurs, les universitaires, les laboratoires d'IA et les personnes contribuant à des modèles d'IA open source peuvent demander à bénéficier d'un aperçu du kit de développement logiciel.

« Nous proposons en avant-première le SDK Maia avec un ensemble complet d'outils permettant de créer et d'optimiser des modèles pour Maia 200. Il comprend un ensemble complet de fonctionnalités, notamment l'intégration de PyTorch, un compilateur Triton et une bibliothèque de noyaux optimisée, ainsi que l'accès au langage de programmation de bas niveau de Maia. Cela permet aux développeurs de bénéficier d'un contrôle précis lorsque cela est nécessaire, tout en facilitant le portage des modèles sur des accélérateurs matériels hétérogènes », a déclaré Scott Guthrie dans son article de blog.

La puce Maia 200 est conçue pour l'inférence IA

Fabriquée selon le processus de pointe 3 nanomètres de TSMC, chaque puce Maia 200 contient plus de 140 milliards de transistors et est adaptée aux charges de travail IA à grande échelle tout en offrant un rapport performance/prix efficace. Sur ces deux fronts, Maia 200 est conçu pour exceller. La puce IA est conçue pour les derniers modèles utilisant des calculs de faible précision, chaque puce Maia 200 offrant plus de 10 pétaFLOPS en précision 4 bits (FP4) et plus de 5 pétaFLOPS en 8 bits (FP8), le tout dans une enveloppe TDP SoC de 750 W. Microsoft indique que Maia 200 peut facilement faire fonctionner les plus grands modèles actuels, tout en offrant une marge suffisante pour des modèles encore plus grands à l'avenir.

Il est important de noter que les FLOPS ne sont pas le seul élément permettant d'accélérer l'IA. L'alimentation en données est tout aussi importante. Maia 200 s'attaque à ce goulot d'étranglement grâce à un sous-système de mémoire repensé. Le sous-système de mémoire de Maia 200 est centré sur des types de données à précision étroite, un moteur DMA spécialisé, une SRAM sur puce et une structure NoC spécialisée pour le transfert de données à haut débit, ce qui augmente le débit des jetons.

Des systèmes d'IA optimisés

Au niveau des systèmes, Maia 200 introduit une nouvelle conception de réseau à deux niveaux, basée sur des câbles Ethernet standard plutôt que sur les commutateurs InfiniBand commercialisés par Nvidia depuis son acquisition de Mellanox en 2020. Une couche de transport personnalisée et une carte réseau étroitement intégrée offrent des performances, une fiabilité élevée et des avantages financiers significatifs sans dépendre de structures propriétaires.

Chaque accélérateur offre :

2,8 To/s de bande passante bidirectionnelle dédiée à l'évolutivité.
Des opérations collectives prévisibles et hautement performantes sur des clusters pouvant compter jusqu'à 6 144 accélérateurs.

Cette architecture, selon Microsoft, offre des performances évolutives pour les clusters d'inférence denses tout en réduisant la consommation d'énergie et le coût total de possession global sur l'ensemble du parc mondial d'Azure.

Au sein de chaque plateau, quatre accélérateurs Maia sont entièrement connectés par des liaisons directes et non commutées, ce qui permet de maintenir une communication locale à haut débit pour une efficacité d'inférence optimale. Les mêmes protocoles de communication sont utilisés pour la mise en réseau intra-rack et inter-rack à l'aide du protocole de transport Maia AI, ce qui permet une évolutivité transparente entre les nœuds, les racks et les clusters d'accélérateurs avec un minimum de sauts réseau.

« Cette structure unifiée simplifie la programmation, améliore la flexibilité de la charge de travail et réduit la capacité inutilisée tout en maintenant des performances et une rentabilité constantes à l'échelle du cloud », a précisé Scott Guthrie.

Une approche de développement native dans le cloud

Microsoft déclare que l'un des principes fondamentaux des programmes de développement de silicium de l'entreprise consiste à valider autant que possible l'ensemble du système de bout en bout avant la mise à disposition finale du silicium.

Un environnement pré-silicium sophistiqué a guidé l'architecture Maia 200 dès ses premières étapes, en modélisant avec une grande fidélité les modèles de calcul et de communication des LLM. Cet environnement de co-développement précoce a permis à Microsoft d'optimiser le silicium, le réseau et les logiciels système comme un tout unifié, bien avant la mise sur le marché du premier silicium.

L'entreprise a également conçu Maia 200 pour une disponibilité rapide et transparente dans le centre de données dès le début, en validant dès le départ certains des éléments les plus complexes du système, notamment le réseau backend et l'unité d'échangeur thermique à refroidissement liquide en boucle fermée de deuxième génération de Microsoft. L'intégration native avec le plan de contrôle Azure offre par ailleurs des capacités de sécurité, de télémétrie, de diagnostic et de gestion au niveau des puces et des racks, maximisant ainsi la fiabilité et le temps de fonctionnement des charges de travail d'IA critiques pour la production.

Microsoft indique que grâce à ces investissements, les modèles d'IA ont pu fonctionner sur le silicium Maia 200 quelques jours seulement après l'arrivée des premiers composants. Le délai entre la première production de silicium et le premier déploiement dans un rack de centre de données a été réduit de plus de moitié par rapport à des programmes d'infrastructure IA comparables.

« Cette approche de bout en bout, de la puce au logiciel en passant par le centre de données, se traduit directement par une utilisation accrue, un délai de mise en production plus court et des améliorations durables en termes de performances par dollar et par watt à l'échelle du cloud », a déclaré Scott Guthrie.

L'équipe Superintelligence de Microsoft va utiliser la puce IA Maia 200

Certaines des premières unités seront destinées à l'équipe Superintelligence de Microsoft, dirigée par Mustafa Suleyman, PDG de Microsoft AI. Les puces seront également utilisées pour alimenter l'assistant Copilot destiné aux entreprises et aux modèles d'IA, y compris le dernier modèle GPT-5.2 d'OpenAI, que Microsoft loue à ses clients cloud.

« C'est un grand jour. Notre équipe Superintelligence sera la première à utiliser Maia 200 dans le cadre du développement de nos modèles d'IA de pointe », a déclaré Mustafa Suleyman dans un message publié sur X.

L'équipe Microsoft Superintelligence utilisera Maia 200 pour la génération de données synthétiques et l'apprentissage par renforcement afin d'améliorer les modèles internes de nouvelle génération. Pour les cas d'utilisation de pipelines de données synthétiques, la conception de Maia 200 permettra d'accélérer la vitesse à laquelle des données de haute qualité et spécifiques à un domaine peuvent être générées et filtrées, alimentant ainsi la formation en aval avec des signaux plus...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Microsoft lance sa puce IA de deuxième génération, Maia 200, afin de proposer une alternative aux processeurs leaders de Nvidia et aux offres de ses concurrents dans le domaine du cloud, Amazon et Google

Identifiant
Mot de passe

Mot de passe oublié ?