Microsoft a dépensé des centaines de millions de dollars pour construire le supercalculateur sur lequel s'appuie ChatGPT.

Microsoft explique comment il a créé l'infrastructure utilisée par OpenAI

Le 14 mars 2023 à 22:34, par Stéphane le calme

123PARTAGES

Microsoft a dépensé des centaines de millions de dollars pour construire le supercalculateur sur lequel s'appuie ChatGPT.
Microsoft a combiné des milliers de GPU NVIDIA sur sa plateforme Azure

Microsoft a dépensé des centaines de millions de dollars pour construire un superordinateur massif pour aider à alimenter le chatbot ChatGPT d'OpenAI, selon un rapport. Dans deux articles de blog publiés lundi, Microsoft explique comment il a créé la puissante infrastructure d'intelligence artificielle d'Azure utilisée par OpenAI et comment ses systèmes deviennent encore plus robustes.

Pour construire le supercalculateur qui alimente les projets d'OpenAI, Microsoft affirme avoir relié des milliers d'unités de traitement graphique (GPU) NVIDIA sur sa plateforme de cloud computing Azure. À son tour, cela a permis à OpenAI de former des modèles de plus en plus puissants et de « déverrouiller les capacités d'IA » d'outils comme ChatGPT et Bing.

Scott Guthrie, vice-président de Microsoft pour l'IA et le cloud, a déclaré que la société avait dépensé plusieurs centaines de millions de dollars pour le projet, selon une déclaration. Et même si cela peut sembler une goutte d'eau dans l'océan pour Microsoft, qui a récemment prolongé son investissement pluriannuel de plusieurs milliards de dollars dans OpenAI, cela démontre certainement qu'il est prêt à investir encore plus d'argent dans l'espace de l'IA.

Lorsque Microsoft Corp. a investi 1 milliard de dollars dans OpenAI en 2019, il a accepté de construire un supercalculateur massif et de pointe pour la startup de recherche en intelligence artificielle. Le seul problème : Microsoft n'avait rien de ce dont OpenAI avait besoin et n'était pas totalement sûr de pouvoir créer quelque chose d'aussi gros dans son service cloud Azure sans qu'il ne se brise.

D'ailleurs, John Roach de Microsoft pose bien le contexte.

[SPOILER]

Envoyé par John Roach

Il y a environ cinq ans, l'organisation de recherche sur l'intelligence artificielle OpenAI a présenté à Microsoft une idée audacieuse selon laquelle elle pourrait créer des systèmes d'IA qui changeraient à jamais la façon dont les gens interagissent avec les ordinateurs.

À l'époque, personne ne savait que cela signifierait des systèmes d'IA qui créent des images de tout ce que les gens décrivent en langage clair ou un chatbot pour écrire des paroles de rap, rédiger des e-mails et planifier des menus entiers basés sur une poignée de mots. Mais une telle technologie était possible. Pour le construire, OpenAI avait besoin de puissance de calcul - à une échelle vraiment massive. Microsoft pourrait-il la fournir?

Microsoft a consacré des décennies à ses propres efforts pour développer des modèles d'IA qui aident les gens à travailler plus efficacement avec le langage, du correcteur orthographique automatique dans Word aux outils d'IA qui écrivent des légendes de photos dans PowerPoint et traduisent dans plus de 100 langues dans Microsoft Translator. Au fur et à mesure que ces capacités d'IA s'amélioraient, la société a appliqué son expertise en calcul haute performance pour faire évoluer l'infrastructure de son cloud Azure, ce qui a permis aux clients d'utiliser ses outils d'IA pour créer, former et servir des applications d'IA personnalisées.

Lorsque les chercheurs en IA ont commencé à utiliser des unités de traitement graphique plus puissantes, appelées GPU, pour gérer des charges de travail d'IA plus complexes, ils ont commencé à entrevoir le potentiel de modèles d'IA beaucoup plus grands qui pourraient comprendre les nuances si bien qu'ils étaient capables de s'attaquer à de nombreuses tâches linguistiques différentes à la fois. Mais ces modèles plus grands se sont rapidement heurtés aux limites des ressources informatiques existantes. Microsoft a compris quel type d'infrastructure de supercalcul OpenAI demandait - et l'échelle qui serait nécessaire.

[/SPOILER]

OpenAI essayait de former un ensemble de plus en plus large de programmes d'intelligence artificielle appelés modèles, qui ingéraient de plus grands volumes de données et apprenaient de plus en plus de paramètres, les variables que le système d'IA a découvertes grâce à la formation et au recyclage. Cela signifiait qu'OpenAI avait besoin d'accéder à de puissants services de cloud computing pendant de longues périodes.

Comment Microsoft s'y est-elle prise ?

Pour relever ce défi, Microsoft a dû trouver des moyens de relier des dizaines de milliers de puces graphiques A100 de NVIDIA Corp. (le cheval de bataille pour la formation des modèles d'IA) et de changer la façon dont il positionne les serveurs sur les racks pour éviter les pannes de courant. Scott Guthrie, le vice-président exécutif de Microsoft qui supervise le cloud et l'IA, n'a pas donné de coût précis pour le projet, mais a déclaré qu'il « est probablement plus important » que plusieurs centaines de millions de dollars.

« Nous avons construit une architecture système qui pouvait fonctionner et être fiable à très grande échelle. C'est ce qui a rendu ChatGPT possible », a déclaré Nidhi Chappell, directeur général de Microsoft pour l'infrastructure Azure AI. « C'est un modèle qui en est ressorti. Il va y en avoir beaucoup, beaucoup d'autres ».

La technologie a permis à OpenAI de lancer ChatGPT, le chatbot viral qui a attiré plus d'un million d'utilisateurs quelques jours après son introduction en bourse en novembre et qui est maintenant entraîné dans les modèles commerciaux d'autres entreprises, de ceux gérés par le fondateur milliardaire du fonds spéculatif Ken Griffin au service de livraison Instacart Inc. Alors que les outils d'IA génératifs tels que ChatGPT suscitent l'intérêt des entreprises et des consommateurs, une pression accrue sera exercée sur les fournisseurs de services cloud tels que Microsoft, Amazon.com Inc. et Google d'Alphabet Inc. pour s'assurer que leurs centres de données peuvent fournir l'énorme puissance de calcul nécessaire.

Désormais, Microsoft utilise le même ensemble de ressources qu'il a construit pour OpenAI pour former et exécuter ses propres grands modèles d'intelligence artificielle, y compris le nouveau bot de recherche Bing introduit le mois dernier. L'entreprise vend également le système à d'autres clients. La grande enseigne du logiciel travaille déjà sur la prochaine génération du superordinateur IA, dans le cadre d'un accord élargi avec OpenAI dans lequel Microsoft a ajouté 10 milliards de dollars à son investissement.

« Nous ne leur avons pas construit une chose personnalisée - cela a commencé comme une chose personnalisée, mais nous l'avons toujours construit de manière à le généraliser afin que quiconque souhaite former un grand modèle de langage puisse tirer parti des mêmes améliorations », a déclaré Guthrie dans une interview. « Cela nous a vraiment aidés à devenir un meilleur cloud pour l'IA en général ».

La formation d'un modèle d'IA massif nécessite un grand nombre d'unités de traitement graphique connectées en un seul endroit, comme le supercalculateur d'IA assemblé par Microsoft. Une fois qu'un modèle est utilisé, répondre à toutes les questions posées par les utilisateurs (ce qui est appelé inférence) nécessite une configuration légèrement différente. Microsoft déploie également des puces graphiques pour l'inférence, mais ces processeurs (des centaines de milliers d'entre eux) sont géographiquement dispersés dans les plus de 60 régions de centres de données de l'entreprise. Maintenant, la société ajoute la dernière puce graphique NVIDIA pour les charges de travail AI (la H100) et la dernière version de la technologie de réseau Infiniband de NVIDIA pour partager des données encore plus rapidement, a déclaré Microsoft lundi dans un billet de blog.

« L'équipe de ravitaillement »

Le nouveau Bing est toujours en Preview, Microsoft ajoutant progressivement plus d'utilisateurs à partir d'une liste d'attente. L'équipe de Guthrie tient une réunion quotidienne avec environ deux douzaines d'employés qu'ils ont surnommés « l'équipe de ravitaillement », faisant le parallèle avec le groupe de mécaniciens qui règlent les problèmes mécaniques des voitures de course durant une course automobile. Le travail du groupe consiste à déterminer comment mettre rapidement en ligne de plus grandes quantités de capacité informatique, ainsi que résoudre les problèmes qui surgissent.

« C'est vraiment une sorte de caucus, où nous pouvons avoir quelque chose comme 'Hé, quelqu'un a une bonne idée, mettons-la sur la table aujourd'hui, et discutons-en' », a déclaré Guthrie.

Un service cloud dépend de milliers de pièces et d'éléments différents (les pièces individuelles des serveurs, des tuyaux, du béton pour les bâtiments, différents métaux et minéraux) et un retard ou une pénurie d'un composant, aussi petit soit-il, peut tout gâcher. Récemment, l'équipe de ravitaillement a dû faire face à une pénurie de chemins de câbles (comme son nom l'indique, il s'agit d'un outil qui retient les câbles sortant des machines). Ils ont donc dû concevoir de nouveaux chemins de câbles. Ils ont également travaillé sur des moyens d'écraser autant de serveurs que possible dans les centres de données existants à travers le monde afin de ne pas avoir à attendre de nouveaux bâtiments, a déclaré Guthrie.

Lorsque OpenAI ou Microsoft forme un grand modèle d'IA, le travail se produit en même temps. Il est divisé sur toutes les GPU et à certains moments, les unités doivent se parler pour partager le travail qu'elles ont effectué. Pour le supercalculateur IA, Microsoft devait s'assurer que l'équipement réseau qui gère la communication entre toutes les puces pouvait gérer cette charge, et il devait développer un logiciel qui tire le meilleur parti des GPU et de l'équipement réseau. La société a maintenant mis au point un logiciel qui lui permet de former des modèles avec des dizaines de billions (un billion étant 1 000 milliards, à ne pas confondre avec billion en anglais) de paramètres.

Étant donné que toutes les machines s'allument en même temps, Microsoft a dû réfléchir à leur emplacement et à l'emplacement des alimentations. Sinon, vous vous retrouvez avec la version centre de données de ce qui se passe lorsque vous allumez un micro-ondes, un grille-pain et un aspirateur en même temps dans la cuisine, a déclaré Guthrie.

La société devait également s'assurer qu'elle pouvait refroidir toutes ces machines et puces, et utiliser l'évaporation, l'air extérieur dans les climats plus frais et les refroidisseurs de marais de haute technologie dans les climats chauds, a déclaré Alistair Speirs, directeur de l'infrastructure mondiale d'Azure.

Microsoft va continuer à travailler sur des conceptions de serveurs et de puces personnalisées et sur des moyens d'optimiser sa chaîne d'approvisionnement afin d'obtenir tous les gains de vitesse, d'efficacité et d'économies possibles, a déclaré Guthrie.

« Le modèle qui impressionne le monde en ce moment est construit sur le supercalculateur que nous avons commencé à construire il y a quelques années. Les nouveaux modèles seront construits sur le nouveau supercalculateur que nous formons actuellement, qui est beaucoup plus grand et permettra encore plus de sophistication », a-t-il déclaré.

En 2019, Microsoft et OpenAI ont conclu un partenariat, qui a été prolongé cette année, pour collaborer sur de nouvelles technologies de supercalcul Azure AI qui accélèrent les percées en matière d'IA, tiennent la promesse de grands modèles de langage et contribuent à garantir que les avantages de l'IA sont largement partagés.

Les deux sociétés ont commencé à travailler en étroite collaboration pour créer des ressources de supercalcul dans Azure qui ont été conçues et dédiées pour permettre à OpenAI de former une suite croissante de modèles d'IA de plus en plus puissants. Cette infrastructure comprenait des milliers de GPU NVIDIA optimisés pour l'IA reliés entre eux dans un réseau à haut débit et à faible latence basé sur les communications NVIDIA Quantum InfiniBand pour un calcul haute performance.

L'échelle de l'infrastructure de cloud computing dont OpenAI avait besoin pour former ses modèles était sans précédent - des grappes exponentiellement plus grandes de GPU en réseau que n'importe qui dans l'industrie avait essayé de construire, a noté Phil Waymouth, un directeur principal de Microsoft en charge des partenariats stratégiques qui a aidé à négocier le traiter avec OpenAI.

La décision de Microsoft de s'associer à OpenAI était ancrée dans la conviction que cette échelle d'infrastructure sans précédent produirait des résultats - de nouvelles capacités d'IA, un nouveau type de plateforme de programmation - que Microsoft pourrait transformer en produits et services offrant de réels avantages aux clients, a déclaré Waymouth. Cette conviction a alimenté l'ambition des entreprises de surmonter tous les défis techniques pour le construire et de continuer à repousser les limites du supercalcul de l'IA.

Cela inclut les résultats de recherche dans Bing qui reconstituent des vacances de rêve, le chatbot dans Viva Sales qui rédige des e-mails marketing, GitHub Copilot qui tire le contexte du code existant des développeurs de logiciels pour suggérer des lignes de code et des fonctions supplémentaires, supprimant la corvée de la programmation informatique, et Azure OpenAI Service, qui donne accès aux grands modèles de langage d'OpenAI avec les fonctionnalités d'entreprise d'Azure.

Source : Microsoft (1, 2)

Et vous ?

Quelle lecture faites-vous de cette situation ?

Êtes-vous surpris d'apprendre que Microsoft a investi autant dans sa collaboration avec OpenAI bien avant la sortie de ChatGPT ?

D'ailleurs, que pensez-vous de cette idée d'unifier chatbot d'IA à outil de recherche ? Avez-vous déjà essayé le Bing nouvelle génération ? Qu'en pensez-vous ?

Vous avez lu gratuitement 347 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Microsoft a dépensé des centaines de millions de dollars pour construire le supercalculateur sur lequel s'appuie ChatGPT.

Microsoft explique comment il a créé l'infrastructure utilisée par OpenAI

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Microsoft a dépensé des centaines de millions de dollars pour construire le supercalculateur sur lequel s'appuie ChatGPT. Microsoft explique comment il a créé l'infrastructure utilisée par OpenAI

Microsoft a dépensé des centaines de millions de dollars pour construire le supercalculateur sur lequel s'appuie ChatGPT.

Microsoft explique comment il a créé l'infrastructure utilisée par OpenAI