IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'essor de l'IA donne naissance au « GPU-as-a-Service », une solution face à la pénurie de puissance mais non sans limites,
Avec des risques de dépendance aux géants du cloud

Le , par Bruno

346PARTAGES

5  0 
Le secteur de l'IA connaît une demande croissante en puissance de calcul, notamment pour alimenter des modèles d'apprentissage profond toujours plus sophistiqués. Cependant, face à des besoins de plus en plus importants et à des coûts d'infrastructure élevés, de nombreuses startups se tournent vers des solutions comme le « GPU-as-a-Service » (GPUaaS). Ce modèle économique permet de mutualiser la capacité de calcul inutilisée, offrant ainsi aux entreprises l'opportunité de louer des ressources GPU sans avoir à investir dans une infrastructure coûteuse. Bien que les GPU ne soient pas les seules options pour le traitement des modèles d'IA, leur capacité à gérer des opérations parallèles les rend indispensables, surtout dans un contexte où la puissance de calcul nécessaire pour entraîner des modèles d'IA est devenue un obstacle majeur.

Les entreprises spécialisées dans le GPUaaS, comme Kinesis, Hyperbolic ou Runpod, exploitent des ressources sous-utilisées dans les serveurs du monde entier, permettant aux entreprises d'accéder à une capacité de calcul à la demande, tout en réduisant les coûts d'exploitation. Ce modèle présente également des avantages environnementaux, car il optimise l'utilisation des ressources existantes plutôt que de construire de nouveaux serveurs, contribuant ainsi à une réduction de la consommation d'énergie.


Des études ont montré que plus de la moitié des GPU existants ne sont pas utilisés à un moment donné. Qu'il s'agisse d'ordinateurs personnels ou de fermes de serveurs colossales, une grande partie de la capacité de traitement est sous-utilisée. Kinesis identifie les capacités de calcul inutilisées - tant pour les GPU que pour les CPU - dans les serveurs du monde entier et les compile en une source de calcul unique que les entreprises peuvent utiliser. Kinesis s'associe à des universités, des centres de données, des entreprises et des particuliers qui souhaitent vendre leur puissance de calcul inutilisée. Grâce à un logiciel spécial installé sur leurs serveurs, Kinesis détecte les unités de traitement inutilisées, les prépare et les propose à ses clients pour une utilisation temporaire.

Citation Envoyé par ACM Digital Library
Le « Deep learning » joue un rôle essentiel dans de nombreuses applications logicielles intelligentes. Les développeurs d'entreprise soumettent et exécutent des tâches d'apprentissage profond sur des plateformes partagées et multi-locataires afin d'entraîner et de tester efficacement les modèles. Ces plateformes sont généralement équipées d'un grand nombre de processeurs graphiques (GPU) pour accélérer les calculs d'apprentissage profond.

Cependant, certains travaux présentent une utilisation plutôt faible des GPU alloués, ce qui entraîne un gaspillage substantiel des ressources et une réduction de la productivité du développement. Cet article présente une étude empirique complète sur la faible utilisation des GPU dans les travaux d'apprentissage profond, basée sur 400 travaux réels (avec une utilisation moyenne des GPU de 50 % ou moins) collectés à partir de la plateforme interne d'apprentissage profond de Microsoft. Nous avons découvert 706 problèmes de faible utilisation du GPU grâce à un examen méticuleux des métadonnées des tâches, des journaux d'exécution, des métriques d'exécution, des scripts et des programmes. En outre, nous identifions les causes profondes communes et proposons des correctifs correspondants.

Nos principales conclusions sont les suivantes :

  1. la faible utilisation du GPU par les tâches d'apprentissage profond est due à des calculs GPU insuffisants et à des interruptions causées par des tâches non GPU ;
  2. environ la moitié (46,03 %) des problèmes sont attribués aux opérations de données ;
  3. 45,18 % des problèmes sont liés aux modèles d'apprentissage profond et se manifestent pendant les phases d'apprentissage et d'évaluation des modèles ;
  4. la plupart (84,99 %) des problèmes de faible utilisation du GPU peuvent être résolus avec un petit nombre de modifications du code/des scripts. Sur la base des résultats de l'étude, nous proposons des orientations de recherche potentielles.

Cependant, l'essor de ces services soulève des questions sur la rentabilité à long terme et sur la dépendance accrue des entreprises vis-à-vis de ces solutions externes. Bien que l'infrastructure GPUaaS semble offrir une réponse temporaire à la demande croissante en calcul pour l'IA, elle n'élimine pas les défis sous-jacents liés à la gestion de la puissance de calcul et à la durabilité de ces services. De plus, l'inévitabilité de l'optimisation des modèles d'IA, avec une gestion plus fine de l'énergie et des données, pourrait redéfinir le paysage de cette industrie en plein boom.

Le GPUaaS face aux défis environnementaux de l’IA

À travers le monde, les entreprises se battent pour répondre aux besoins en GPU nécessaires au fonctionnement de modèles d'IA de plus en plus complexes. Bien que les GPU ne soient pas l'unique option pour faire tourner un modèle d'IA, ils sont devenus la solution privilégiée en raison de leur capacité à exécuter plusieurs opérations simultanément, une...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de
https://www.developpez.com
Le 22/01/2025 à 10:04
Ce serait pas ce que microsoft met en place avec ses 450000 puces nvidia et fenêtres onze (qui nécessite un changement de matos) ?
Une nouvelle façon d'envisager la relation client-serveur (maître passif et esclaves actifs ?
2  0