En quelques mois, la demande en puissance de calcul pour l'intelligence artificielle a dépassé toutes les projections. Pannes à répétition, rationnement des accès, envolée des prix des GPU, contrats pluriannuels à plusieurs milliards de dollars : le secteur de l'IA générative se heurte de plein fouet à une contrainte que l'argent ne peut pas, à court terme, résoudre ; le temps. Bienvenue dans l'ère de la pénurie de calcul.Pendant des années, la conversation autour de l'IA a tourné autour des données, des algorithmes, des modèles. La puissance de calcul était considérée comme une ressource certes coûteuse, mais fondamentalement extensible ; il suffisait d'ajouter des serveurs. Ce postulat vient d'être mis à mal de façon spectaculaire.
« Tout le monde parle de pétrole, mais je pense que ce dont le monde manque surtout, ce sont des tokens », déclarait récemment Ben Pouladian, ingénieur et investisseur basé à Los Angeles. Le token, unité de mesure de la consommation de ressources de calcul par une tâche d'IA, est devenu le nouvel or noir d'une industrie qui se retrouve à court de la ressource la plus fondamentale de son existence : la capacité à traiter des requêtes. « L'IA n'est plus simplement un chatbot qu'on interroge pour une recette devant le frigo. Elle orchestre des tâches, elle devient plus intelligente », ajoute-t-il.
L'explosion de la demande est documentée avec une précision qui laisse peu de place à l'interprétation. Chez OpenAI, le volume de tokens traités via l'API (la plateforme d'accès principalement utilisée par les entreprises) est passé de six milliards par minute en octobre 2024 à quinze milliards par minute fin mars 2025. Une multiplication par 2,5 en moins de six mois, sur un périmètre qui ne représente qu'une fraction de l'usage total.
Les agents IA, détonateur d'une crise infrastructurelle
Si la croissance était prévisible, son accélération brutale s'explique par un facteur précis : l'essor des agents IA autonomes. Contrairement à un échange ponctuel avec un assistant textuel, un agent peut enchaîner des dizaines, voire des centaines d'appels à un modèle pour accomplir une tâche complexe : rédiger et tester du code, planifier des visites immobilières, automatiser des processus métier entiers. Chaque étape consomme des tokens. La charge par utilisateur a donc explosé indépendamment du nombre d'utilisateurs.
Anthropic, OpenAI et leurs concurrents se retrouvent ainsi confrontés à un problème classique des booms technologiques : la demande progresse bien plus vite que la capacité à déployer les infrastructures nécessaires. Le parallèle avec le boom ferroviaire du XIXe siècle ou l'explosion des télécommunications au début des années 2000 est tentant, et pas seulement rhétorique : dans les deux cas, l'inadéquation entre la vitesse d'adoption et la vitesse de construction s'était traduite par des tensions tarifaires, des faillites et une recomposition des acteurs.
Anthropic en première ligne : quand la croissance dépasse l'infrastructure
Peu de compagnies illustrent aussi clairement ce paradoxe qu'Anthropic. Sa trajectoire de revenus est presque irréelle : 9 milliards de dollars de revenu annualisé à la fin 2025, 14 milliards en février 2026, puis 30 milliards deux mois plus tard, une multiplication par trois en quelques semaines. Mais cette croissance foudroyante s'est accompagnée d'un effondrement progressif de la qualité de service.
Depuis mi-février 2026, les pannes se sont multipliées à une fréquence telle que certains clients entreprises ont commencé à migrer vers d'autres fournisseurs. La disponibilité de l'API Claude, mesurée sur 90 jours à la date du 8 avril, s'établissait à 98,95 %. Chiffre qui peut sembler élevé pour un profane, mais qui représente, dans le monde des services numériques professionnels, une anomalie grave. « Ce n'est pas normal », tranche Amir Haghighat, directeur technique de Baseten, une startup spécialisée dans l'inférence IA. « AWS, les bases de données, Stripe, ces services doivent être très résilients, avec une disponibilité très élevée. Ce n'est pas la qualité de service que l'on veut obtenir de la société qui fournit l'intelligence pour votre application. »
L'impact commercial est déjà mesurable. David Hsu, fondateur et PDG de Retool, une plateforme de développement logiciel, confie au Wall Street Journal qu'il préfère le modèle Opus 4.6 d'Anthropic pour alimenter son outil d'agent IA mais qu'il a dû basculer vers OpenAI faute de fiabilité. « Anthropic était en panne tout le temps », dit-il simplement.
Fin mars, Anthropic a mis en place un contingentement de tokens pendant les heures de pointe, entre 5h et 11h du matin, heure du Pacifique, en semaine. La réaction des utilisateurs sur les réseaux sociaux a été immédiate. « Je n'avais pas atteint ma limite sur Claude Code depuis des semaines, mais cette semaine je l'ai atteinte en 45 minutes environ », écrit un utilisateur sur X. Boris Cherny, créateur de Claude Code, a défendu la mesure publiquement : « La capacité est une ressource que nous gérons avec soin et nous priorisons nos clients qui utilisent nos produits et notre API. »
GPU : une inflation qui ne laisse pas d'alternative
La pénurie de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.