
Nvidia annonce NVIDIA Dynamo, une bibliothèque open-source qui augmenterait les performances d'inférence tout en réduisant les coûts de mise à l'échelle du calcul en temps de test. NVIDIA Dynamo peut ajouter, supprimer et réaffecter dynamiquement des GPU en réponse à la fluctuation des volumes et des types de requêtes, ainsi que localiser des GPU spécifiques dans de grands clusters qui peuvent minimiser les calculs de réponse et acheminer les requêtes.
Le raisonnement de l'IA devenant de plus en plus répandu, chaque modèle d'IA devrait générer des dizaines de milliers de jetons à chaque demande, ce qui représente essentiellement son processus de "réflexion". Il est donc essentiel d'améliorer la performance de l'inférence tout en réduisant son coût pour accélérer la croissance et augmenter les opportunités de revenus pour les fournisseurs de services.
Gérer et coordonner efficacement les demandes d'inférence d'IA à travers une flotte de GPU est un effort critique pour s'assurer que les centres de données de l'IA peuvent fonctionner avec un rapport coût-efficacité optimal et maximiser la génération de revenus de jetons. Dans cet objectif, Nvidia a lancé Dynamo, un logiciel d'inférence open-source conçu pour accélérer et mettre à l'échelle les modèles de raisonnement dans les centres de données de l'IA.
Pour rappel, Nvidia est une entreprise de technologie qui conçoit et fournit des processeurs graphiques (GPU), des interfaces de programmation d'applications (API) pour la science des données et le calcul à haute performance, ainsi que des systèmes sur puce (SoC) pour l'informatique mobile et le marché de l'automobile. Nvidia est également l'un des principaux fournisseurs de matériel et de logiciels d'intelligence artificielle (IA).
Selon Nvidia, la bibliothèque open-source NVIDIA Dynamo accélère et fait évoluer les modèles de raisonnement de l'IA. Dynamo augmenterait les performances d'inférence tout en réduisant les coûts de mise à l'échelle du calcul en temps de test. Par exemple, les optimisations d'inférence sur les puces d'IA Blackwell augmentent le débit de 30 fois sur DeepSeek-R1 avec Dynamo.
Nvidia dévoile Dynamo pour accélérer et mettre à l'échelle les modèles de raisonnement de l'IA au moindre coût et avec la plus grande efficacité
Dynamo, le successeur de Triton Inference Server, est un nouveau logiciel de service d'inférence d'IA conçu pour maximiser la génération de revenus de jetons pour les centres de données d'IA déployant des modèles d'IA raisonnante. Il orchestre et accélère la communication d'inférence sur des milliers de GPU, et utilise le service ventilé pour séparer les phases de traitement et de génération des grands modèles de langage (LLM) sur différents GPU. Cela permet à chaque phase d'être optimisée indépendamment pour ses besoins spécifiques et garantit une utilisation maximale des ressources du GPU.
"Les industries du monde entier entraînent les modèles d'IA à penser et à apprendre de différentes manières, ce qui les rend plus sophistiqués au fil du temps", a déclaré Jensen Huang, fondateur et PDG de Nvidia. "Pour permettre un futur d'IA de raisonnement personnalisé, NVIDIA Dynamo aide à servir ces modèles à l'échelle, ce qui permet de réduire les coûts et de gagner en efficacité dans les usines d'IA."
En utilisant le même nombre de GPU, Dynamo doublerait les performances et les revenus des centres de données d'IA qui servent les modèles Llama sur la plateforme NVIDIA Hopper. Lors de l'exécution du modèle DeepSeek-R1 sur un grand cluster de racks NVL72 GB200, les optimisations intelligentes de l'inférence de NVIDIA Dynamo augmentent également le nombre de jetons générés de plus de 30 fois par GPU.
Pour obtenir ces améliorations de performances d'inférence, NVIDIA Dynamo intègre des fonctions qui lui permettent d'augmenter le débit et de réduire les coûts. Il peut ajouter, supprimer et réaffecter dynamiquement des GPU en réponse à la fluctuation des volumes et des types de requêtes, ainsi que localiser des GPU spécifiques dans de grands clusters qui peuvent minimiser les calculs de réponse et acheminer les requêtes. Il peut également décharger les données d'inférence vers des dispositifs de mémoire et de stockage plus abordables et les récupérer rapidement en cas de besoin, minimisant ainsi les coûts d'inférence.
NVIDIA Dynamo comprend quatre innovations clés qui réduisent les coûts des services d'inférence et améliorent l'expérience des utilisateurs :
- GPU Planner : Un moteur de planification qui ajoute et retire dynamiquement des GPU pour s'adapter à la demande fluctuante des utilisateurs, évitant ainsi le sur- ou le sous-provisionnement en GPU.
- Routeur intelligent : Un routeur conscient de la LLM qui dirige les demandes à travers de grandes flottes de GPU afin de minimiser les recalculs coûteux des GPU pour les demandes répétées ou qui se chevauchent - libérant ainsi les GPU pour répondre aux nouvelles demandes entrantes.
- Bibliothèque de communication à faible latence : Une bibliothèque optimisée pour l'inférence qui prend en charge la communication GPU-GPU de pointe et fait abstraction de la complexité de l'échange de données entre des dispositifs hétérogènes, accélérant ainsi le transfert de données.
- Gestionnaire de mémoire : Un moteur qui décharge et recharge intelligemment les données d'inférence vers et depuis des mémoires et des périphériques de stockage moins coûteux sans affecter l'expérience de l'utilisateur.
NVIDIA Dynamo sera mis à disposition dans les microservices NVIDIA NIM et pris en charge dans une prochaine version par la plateforme logicielle NVIDIA AI Enterprise avec une sécurité, un support et une stabilité de niveau production. NVIDIA Dynamo serait entièrement open source et prend en charge PyTorch, SGLang, NVIDIA TensorRT-LLM et vLLM pour permettre aux entreprises, aux startups et aux chercheurs de développer et d'optimiser les moyens de servir les modèles d'IA à travers l'inférence ventilée.
Inférence boostée
NVIDIA Dynamo cartographie les connaissances que les systèmes d'inférence conservent en mémoire après avoir servi des requêtes antérieures - connues sous le nom de cache KV - sur des milliers de GPU. Il achemine ensuite les nouvelles demandes d'inférence vers les GPU qui ont la meilleure correspondance de connaissances, évitant ainsi les recalculs coûteux et libérant les GPU pour répondre aux nouvelles demandes entrantes.
"Pour traiter des centaines de millions de requêtes par mois, nous comptons sur les GPU et le logiciel d'inférence de NVIDIA pour fournir les performances, la fiabilité et l'évolutivité que notre entreprise et nos utilisateurs exigent", a déclaré Denis Yarats, chief technology officer de Perplexity AI. "Nous avons hâte d'exploiter Dynamo, avec ses capacités améliorées de service distribué, pour obtenir encore plus d'efficacité dans le service d'inférence et répondre aux demandes de calcul des nouveaux modèles de raisonnement de l'IA."
IA agentique
Le fournisseur d'IA Cohere prévoit d'intégrer des capacités d'IA agentique dans sa série de modèles Command en utilisant NVIDIA Dynamo. "La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent les contextes de raisonnement de manière transparente à travers la mémoire et le stockage", a déclaré Saurabh Baji, senior vice président de l'ingénierie chez Cohere. "Nous pensons que NVIDIA Dynamo nous aidera à fournir une expérience utilisateur de premier ordre à nos clients professionnels".
Service ventilé
La plate-forme d'inférence NVIDIA Dynamo prend également en charge le service ventilé, qui attribue les différentes phases de calcul des LLM - y compris la compréhension de la requête de l'utilisateur et la génération de la meilleure réponse - à différents GPU. Cette approche est idéale pour les modèles de raisonnement comme la nouvelle famille de modèles NVIDIA Llama Nemotron, qui utilise des techniques d'inférence avancées pour améliorer la compréhension du contexte et la génération de réponses. Le service ventilé permet à chaque phase d'être affinée et dotée de ressources indépendantes, ce qui améliore le débit et permet d'apporter des réponses plus rapides aux utilisateurs.
Together AI, le Cloud d'accélération de l'IA, cherche à intégrer son moteur d'inférence propriétaire Together avec NVIDIA Dynamo pour permettre une mise à l'échelle transparente des charges de travail d'inférence sur les nœuds GPU. Cela permet également à Together AI de traiter dynamiquement les goulets d'étranglement du trafic à différentes étapes du pipeline du modèle.
"La mise à l'échelle rentable des modèles de raisonnement nécessite de nouvelles techniques d'inférence avancées, notamment le service ventilé et le routage contextuel", a déclaré Ce Zhang, directeur de la technologie de Together AI. "Together AI fournit des performances de pointe grâce à son moteur d'inférence propriétaire. L'ouverture et la modularité de NVIDIA Dynamo nous permettront d'intégrer ses composants dans notre moteur pour répondre à davantage de demandes tout en optimisant l'utilisation des ressources - maximisant ainsi notre investissement dans l'informatique accélérée. Nous sommes ravis d'exploiter les capacités révolutionnaires de la plate-forme pour apporter de façon rentable des modèles de raisonnement open-source à nos utilisateurs"
Source : Nvidia
Et vous ?


Voir aussi :



Vous avez lu gratuitement 4 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.