Nvidia annonce NVIDIA Dynamo, une bibliothèque open-source qui augmenterait les performances d'inférence tout en réduisant les coûts de mise à l'échelle du calcul en temps de test. NVIDIA Dynamo peut ajouter, supprimer et réaffecter dynamiquement des GPU en réponse à la fluctuation des volumes et des types de requêtes, ainsi que localiser des GPU spécifiques dans de grands clusters qui peuvent minimiser les calculs de réponse et acheminer les requêtes.Le raisonnement de l'IA devenant de plus en plus répandu, chaque modèle d'IA devrait générer des dizaines de milliers de jetons à chaque demande, ce qui représente essentiellement son processus de "réflexion". Il est donc essentiel d'améliorer la performance de l'inférence tout en réduisant son coût pour accélérer la croissance et augmenter les opportunités de revenus pour les fournisseurs de services.
Gérer et coordonner efficacement les demandes d'inférence d'IA à travers une flotte de GPU est un effort critique pour s'assurer que les centres de données de l'IA peuvent fonctionner avec un rapport coût-efficacité optimal et maximiser la génération de revenus de jetons. Dans cet objectif, Nvidia a lancé Dynamo, un logiciel d'inférence open-source conçu pour accélérer et mettre à l'échelle les modèles de raisonnement dans les centres de données de l'IA.
Pour rappel, Nvidia est une entreprise de technologie qui conçoit et fournit des processeurs graphiques (GPU), des interfaces de programmation d'applications (API) pour la science des données et le calcul à haute performance, ainsi que des systèmes sur puce (SoC) pour l'informatique mobile et le marché de l'automobile. Nvidia est également l'un des principaux fournisseurs de matériel et de logiciels d'intelligence artificielle (IA).
Selon Nvidia, la bibliothèque open-source NVIDIA Dynamo accélère et fait évoluer les modèles de raisonnement de l'IA. Dynamo augmenterait les performances d'inférence tout en réduisant les coûts de mise à l'échelle du calcul en temps de test. Par exemple, les optimisations d'inférence sur les puces d'IA Blackwell augmentent le débit de 30 fois sur DeepSeek-R1 avec Dynamo.
Nvidia dévoile Dynamo pour accélérer et mettre à l'échelle les modèles de raisonnement de l'IA au moindre coût et avec la plus grande efficacité
Dynamo, le successeur de Triton Inference Server, est un nouveau logiciel de service d'inférence d'IA conçu pour maximiser la génération de revenus de jetons pour les centres de données d'IA déployant des modèles d'IA raisonnante. Il orchestre et accélère la communication d'inférence sur des milliers de GPU, et utilise le service ventilé pour séparer les phases de traitement et de génération des grands modèles de langage (LLM) sur différents GPU. Cela permet à chaque phase d'être optimisée indépendamment pour ses besoins spécifiques et garantit une utilisation maximale des ressources du GPU.
"Les industries du monde entier entraînent les modèles d'IA à penser et à apprendre de différentes manières, ce qui les rend plus sophistiqués au fil du temps", a déclaré Jensen Huang, fondateur et PDG de Nvidia. "Pour permettre un futur d'IA de raisonnement personnalisé, NVIDIA Dynamo aide à servir ces modèles à l'échelle, ce qui permet de réduire les coûts et de gagner en efficacité dans les usines d'IA."
En utilisant le même nombre de GPU, Dynamo doublerait les performances et les revenus des centres de données d'IA qui servent les modèles Llama sur la plateforme NVIDIA Hopper. Lors de l'exécution du modèle DeepSeek-R1 sur un grand cluster de racks NVL72 GB200, les optimisations intelligentes de l'inférence de NVIDIA Dynamo augmentent également le nombre de jetons générés de plus de 30 fois par GPU.
Pour obtenir ces améliorations de performances d'inférence, NVIDIA Dynamo intègre des fonctions qui lui permettent d'augmenter le débit et de réduire les coûts. Il peut ajouter, supprimer et réaffecter dynamiquement des GPU en réponse à la fluctuation des volumes et des types de requêtes, ainsi que localiser des GPU spécifiques dans de grands clusters qui peuvent minimiser les calculs de réponse et acheminer les requêtes. Il peut également décharger les données d'inférence vers des dispositifs de mémoire et de stockage plus abordables et les récupérer rapidement en cas de besoin, minimisant ainsi les coûts d'inférence.
NVIDIA Dynamo comprend quatre innovations clés qui réduisent...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.