Microsoft a lancé sa puce d'intelligence artificielle (IA) de deuxième génération, Maia 200, qui se positionne comme une alternative potentielle aux processeurs leaders de Nvidia et aux offres de ses concurrents dans le domaine du cloud, Amazon et Google. Fabriquée à l'aide de la technologie de 3 nanomètres de Taiwan Semiconductor Manufacturing Company (TSMC), cette puce est optimisée pour l'inférence à grande échelle et offre, selon l'entreprise, des performances jusqu'à 30 % supérieures par dollar pour les charges de travail d'IA. La puce Maia 200 est déjà déployée dans certains centres de données américains et sera d'abord mise à la disposition des divisions internes de Microsoft, notamment de l'équipe Superintelligence dirigée par Mustafa Suleyman, avant d'être rendue accessible aux développeurs, chercheurs et entreprises clientes via Azure.Ce lancement intervient deux ans après l'annonce par Microsoft du développement d'Azure Maia 100, sa première puce IA sur mesure optimisée pour l'IA générative. Cette puce de silicium personnalisée a été conçue pour alimenter les centres de données Azure de Microsoft et préparer l'entreprise et ses clients à un avenir tourné vers l'IA. Cependant, la puce Maia 100 n'a jamais été mise à la disposition des clients cloud.
Cette fois-ci, ce sera différent. Scott Guthrie, vice-président exécutif de Microsoft chargé du cloud et de l'IA, a déclaré dans un article de blog que la nouvelle puce serait « plus largement disponible pour les clients à l'avenir ».
Dans un message publié sur X, anciennement Twitter, le PDG de Microsoft, Satya Nadella, a déclaré : « Notre tout dernier accélérateur d'IA, Maia 200, est désormais en ligne dans Azure. Conçu pour offrir une efficacité d'inférence à la pointe du secteur, il offre des performances 30 % supérieures par dollar aux systèmes actuels. Et avec un débit de plus de 10 PFLOPS FP4, environ 5 PFLOPS FP8 et 216 Go de HBM3e avec une bande passante mémoire de 7 To/s, il est optimisé pour les charges de travail IA à grande échelle. Il vient compléter notre large gamme de processeurs, de cartes graphiques et d'accélérateurs personnalisés, offrant ainsi aux clients davantage d'options pour exécuter des charges de travail IA avancées plus rapidement et de manière plus rentable sur Azure. »
Scott Guthrie a qualifié Maia 200 de « système d'inférence le plus efficace jamais déployé par Microsoft ». Les développeurs, les universitaires, les laboratoires d'IA et les personnes contribuant à des modèles d'IA open source peuvent demander à bénéficier d'un aperçu du kit de développement logiciel.
« Nous proposons en avant-première le SDK Maia avec un ensemble complet d'outils permettant de créer et d'optimiser des modèles pour Maia 200. Il comprend un ensemble complet de fonctionnalités, notamment l'intégration de PyTorch, un compilateur Triton et une bibliothèque de noyaux optimisée, ainsi que l'accès au langage de programmation de bas niveau de Maia. Cela permet aux développeurs de bénéficier d'un contrôle précis lorsque cela est nécessaire, tout en facilitant le portage des modèles sur des accélérateurs matériels hétérogènes », a déclaré Scott Guthrie dans son article de blog.
La puce Maia 200 est conçue pour l'inférence IA
Fabriquée selon le processus de pointe 3 nanomètres de TSMC, chaque puce Maia 200 contient plus de 140 milliards de transistors et est adaptée aux charges de travail IA à grande échelle tout en offrant un rapport performance/prix efficace. Sur ces deux fronts, Maia 200 est conçu pour exceller. La puce IA est conçue pour les derniers modèles utilisant des calculs de faible précision, chaque puce Maia 200 offrant plus de 10 pétaFLOPS en précision 4 bits (FP4) et plus de 5 pétaFLOPS en 8 bits (FP8), le tout dans une enveloppe TDP SoC de 750 W. Microsoft indique que Maia 200 peut facilement faire fonctionner les plus grands modèles actuels, tout en offrant une marge suffisante pour des modèles encore plus grands à l'avenir.
Il est important de noter que les FLOPS ne sont pas le seul élément permettant d'accélérer l'IA. L'alimentation en données est tout aussi importante. Maia 200 s'attaque à ce goulot d'étranglement grâce à un sous-système de mémoire repensé. Le sous-système de mémoire de Maia 200 est centré sur des types de données à précision étroite, un moteur DMA spécialisé, une SRAM sur puce et une structure NoC spécialisée pour le transfert de données à haut débit, ce qui augmente le débit des jetons.
Des systèmes d'IA optimisés
Au niveau des systèmes, Maia 200 introduit une nouvelle conception de réseau à deux niveaux, basée sur des câbles Ethernet standard plutôt que sur les commutateurs InfiniBand commercialisés par Nvidia depuis son acquisition de Mellanox en 2020. Une couche de transport personnalisée et une carte réseau étroitement intégrée offrent des performances, une fiabilité élevée et des avantages financiers significatifs sans dépendre de structures propriétaires.
Chaque accélérateur offre :
- 2,8 To/s de bande passante bidirectionnelle dédiée à l'évolutivité.
- Des opérations collectives prévisibles et hautement performantes sur des clusters pouvant compter jusqu'à 6 144 accélérateurs.
Cette...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.