MI300X vs H100 : AMD et Nvidia défendent chacun la supériorité de sa puce d'IA
Une unité de traitement neuronal est un microprocesseur spécialisé dans l'accélération des algorithmes d'apprentissage automatique, généralement en opérant sur des modèles prédictifs tels que les réseaux neuronaux artificiels (artificial neural networks - ANN) ou les forêts d'arbres décisionnels (random forest). Elle est également connue sous le nom de processeur neuronal ou accélérateur d'IA. Ces processeurs d'IA ont connu un véritable essor ces dernières années en raison de l'augmentation sans cesse des besoins en calcul des entreprises d'IA et de l'avènement des grands modèles de langage (LLM). Jusque là Nvidia a largement dominé le marché.
Toutefois, la firme de Santa Clara est de plus en plus talonnée par son rival AMD. Pour réduire un peu plus l'écart avec Nvidia, AMD a lancé au début du mois un nouvel accélérateur d'IA appelé Instinct MI300X. Lisa Su, PDG d'AMD, et ses collègues ont présenté les prouesses du MI300X en le comparant aux performances d'inférence du H100 de Nvidia à l'aide de Llama 2. Selon la comparaison, un seul serveur d'AMD, composé de huit MI300X, serait 1,6x plus rapide qu'un serveur H100. Mais Nvidia n'a pas apprécié la comparaison et l'a démentie. Dans un billet de blogue publié en réponse aux benchmarks d'AMD, Nvidia s'est opposé aux résultats de son rival.
Contrairement à la présentation d'AMD, Nvidia affirme que sa puce H100, lorsqu'elle est évaluée de façon appropriée avec un logiciel optimisé, surpasse le MI300X par une marge substantielle. Nvidia a allégué qu'AMD n'avait pas intégré ses optimisations lors de la comparaison avec TensorRT-LLM. Développé par Nvidia, TensorRT-LLM est une boîte à outils permettant d'assembler des solutions optimisées pour effectuer l'inférence de grands modèles de langage. Dans son article, la réponse de Nvidia a consisté à comparer un seul H100 à des GPU H100 à huit voies en exécutant le modèle de chat Llama 2 70B. Les résultats obtenus sont surprenants.
Les résultats, obtenus à l'aide d'un logiciel antérieur à la présentation d'AMD, ont démontré une performance deux fois plus rapide pour une taille de lot de 1. Plus loin encore, en appliquant la latence standard de 2,5 secondes utilisée par AMD, Nvidia émerge comme le leader incontesté, surpassant le MI300X d'un facteur stupéfiant de 14. Comment cela est-il possible ? C'est simple. AMD n'a pas utilisé le logiciel de Nvidia, qui est optimisé pour améliorer les performances sur le matériel Nvidia. La firme de Santa Clara indique qu'AMD a utilisé un logiciel alternatif qui ne prend pas en charge le moteur Transformer de la puce H100 (Hopper).
« Bien que TensorRT-LLM soit disponible gratuitement sur GitHub, les comparaisons récentes d'AMD ont utilisé un logiciel alternatif qui ne prend pas encore en charge le moteur Transformer de Hopper et qui ne dispose pas de ces optimisations », indique Nvidia. En outre, AMD n'a pas tiré parti du logiciel TensorRT-LLM publié par Nvidia en septembre, qui double les performances d'inférence sur les LLM, ni du moteur d'inférence Triton. Ainsi, l'absence de TensorRT-LLM, de Transformer Engine et de Triton a donné des performances non optimales. Selon les critiques, comme AMD n'a pas de logiciel équivalent, il a pensé qu'il s'agissait d'une meilleure mesure.
AMD publie de nouvelles mesures indiquant que le MI300X est supérieur au H100
De manière surprenante, AMD a répondu au défi lancé par Nvidia avec de nouvelles mesures des performances de sa puce MI300X, démontrant une augmentation de 30 % des performances par rapport à la puce H100, même avec une pile logicielle finement réglée. Reprenant les conditions de test de Nvidia avec TensorRT-LLM, AMD a adopté une approche proactive en tenant compte de la latence, un facteur courant dans les charges de travail des serveurs. AMD a mis l'accent sur des points clés de son argumentation, en soulignant notamment les avantages de FP16 en utilisant vLLM par rapport à FP8, qui est exclusif à TensorRT-LLM.
AMD a affirmé que Nvidia a utilisé un ensemble sélectif de charges de travail d'inférence. L'entreprise a également indiqué que Nvidia avait utilisé son propre TensorRT-LLM sur H100 plutôt que vLLM, une méthode open source largement utilisée. En outre, Nvidia a utilisé le type de données de performance vLLM FP16 sur AMD tout en comparant ses résultats avec DGX-H100, qui a utilisé le TensorRT-LLM avec le type de données FP8 pour afficher ces résultats prétendument mal interprétés. AMD a souligné que dans son test, il a utilisé vLLM avec l'ensemble de données FP16 en raison de son utilisation répandue, et que vLLM ne prend pas en charge FP8.
Un autre point de discorde entre les deux entreprises porte sur la latence dans les environnements de serveurs. AMD reproche à Nvidia de se concentrer uniquement sur les performances de débit sans aborder les problèmes de latence dans le monde réel. Alors, pour contrer la méthode de test de Nvidia, AMD a effectué trois tests de performance en utilisant la boîte à outils TensorRT-LLM de Nvidia, le dernier test mesurant spécifiquement la latence entre MI300X et vLLM en utilisant l'ensemble de données FP16 contre H100 avec TensorRT-LLM. Les nouveaux tests d'AMD ont montré une amélioration des performances et une réduction de la latence.
AMD a appliqué des optimisations supplémentaires, ce qui a permis d'augmenter les performances de 2,1x par rapport à H100 lors de l'exécution de vLLM sur les deux plateformes. C'est maintenant à Nvidia d'évaluer comment il souhaite réagir. Mais l'entreprise doit également reconnaître que cela obligerait l'industrie à abandonner le FP16 avec le système fermé de TensorRT-LLM pour utiliser le FP8, ce qui reviendrait à abandonner vLLM pour de bon.
Le marché du matériel d'IA évolue très rapidement et la concurrence s'intensifie
La concurrence entre Nvidia et AMD dure depuis longtemps. Mais il est intéressant de noter que c'est la première fois que Nvidia a décidé de comparer directement les performances de ses produits avec celles d'AMD. Cela montre clairement que la concurrence dans ce domaine s'intensifie. En outre, les deux géants des puces ne sont pas les seuls à tenter de se faire une place sur le marché. D'autres, comme Cerebras Systems et Intel, s'y emploient également. Pat Gelsinger, PDG d'Intel, a annoncé la puce d'IA Gaudi3 lors de son dernier événement AI Everywhere. Cependant, seulement très peu d'informations ont été révélées sur ce processeur.
De même, le H100 ne sera bientôt plus d'actualité. Nvidia présentera au début de l'année prochaine les puces GH200, qui succéderont aux H100. AMD n'a pas comparé ses nouvelles puces avec ce dernier, mais avec le H100. Il est évident que les performances de la nouvelle puce GH200 seront supérieures à celles des puces précédentes. Étant donné que la concurrence est si serrée, AMD pourrait finir par être traité comme une option de secours par de nombreuses entreprises, dont Meta, Microsoft et Oracle. À ce propos, Microsoft et Meta ont annoncé récemment qu'ils envisagent d'intégrer les puces d'AMD dans leurs centres de données.
Gelsinger a prévu que la taille du marché des GPU serait d'environ 400 milliards de dollars d'ici 2027. Il y a donc de la place pour de nombreux compétiteurs. De son côté, Andrew Feldman, PDG de Cerebras, a dénoncé de prétendues pratiques monopolistiques de Nvidia lors de l'événement Global AI Conclave. « Nous passons notre temps à chercher comment être meilleurs que Nvidia. D'ici l'année prochaine, nous construirons 36 exaflops de puissance de calcul pour l'IA », a-t-il déclaré à propos des plans de l'entreprise. Feldman serait également en pourparlers avec le gouvernement indien pour alimenter le calcul de l'IA dans le pays.
La société a également signé un contrat de 100 millions de dollars pour un supercalculateur d'IA avec G42, une startup d'IA aux Émirats arabes unis, où Nvidia n'est pas autorisée à travailler. En ce qui concerne le bras de fer entre Nvidia et AMD, les rapports soulignent que les spécifications FLOP du MI300X sont meilleures que celles du Nvidia H100 et le MI300X dispose également de plus de mémoire HBM. Toutefois, il faut un logiciel optimisé pour faire fonctionner une puce d'IA et traduire cette puissance et ces octets en valeur pour le client. « Le logiciel AMD ROCm a fait des progrès significatifs, mais AMD a encore beaucoup à faire », note un critique.
Un autre se réjouit de l'intensification de la rivalité entre AMD et Nividia : « c'est formidable de voir AMD rivaliser avec Nvidia. Tout le monde en profitera, y compris probablement Nvidia qui ne peut pas produire suffisamment de GPU pour satisfaire la demande du marché et qui est moins enclin à se reposer sur ses lauriers ».
Sources : Nvidia, AMD
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des puces MI300X d'AMD et H100 de Nvidia ?
Quelles comparaisons faites-vous entre les deux accélérateurs d'IA ?
Selon vous, la puce MI300X d'AMD va-t-elle réussir à s'imposer sur le marché ?
Pensez-vous que la puce H200 va permettre à Nvidia de distancer à nouveau ses rivaux ?
Cerebras et Intel pourront-ils faire de l'ombre à Nvidia sur le marché des GPU dans un avenir proche ?
Que pensez-vous des accusations selon lesquelles Nvidia utilise des pratiques antitrust pour maintenir son monopole ?
Voir aussi
AMD annonce l'Instinct MI300, des accélérateurs d'IA générative et des APU pour centres de données qui offrent des performances jusqu'à 1,3 fois plus élevées dans les charges de travail d'IA
Meta et Microsoft annoncent qu'ils achèteront la nouvelle puce d'IA d'AMD pour remplacer celle de Nvidia
AMD acquiert Nod.ai, une start-up spécialisée dans les logiciels d'intelligence artificielle dans le but de renforcer ses capacités logicielles et de rattraper Nvidia