
La panne a été attribuée à un dysfonctionnement du système de surveillance interne des équilibres de charge (load balancers) dans la région US-East-1 d'AWS, en Virginie, ce qui a entraîné des erreurs DNS et des perturbations en cascade. À 18 h 53 (heure de l'Est), une mise à jour du portail AWS Health Dashboard indiquait que la panne avait été résolue vers 18 heures et que les 142 services qui étaient hors service le matin fonctionnaient à nouveau.
Des millions d'entreprises dépendent d'AWS, et les deux seuls autres fournisseurs de services cloud d'envergure similaire sont Microsoft Azure et Google Cloud Platform. Il n'est pas rare que ces fournisseurs rencontrent des problèmes avec le DNS. En 2012, Microsoft Azure a connu une panne du DNS due à un pic de trafic. En juillet 2025, le résolveur DNS de Cloudflare a connu une panne qui, selon la société, était due à une erreur de configuration interne.
Selon le portail AWS Health Dashboard, le nord de la Virginie, où le dysfonctionnement s'est produit, est un lieu courant pour les centres de données. En 2023, les centres de données de Virginie consomment un quart de l'électricité disponible dans l'État, et les habitants s'inquiètent de plus en plus de l'impact de ces constructions sur leur qualité de vie, malgré les recettes fiscales promises. Amazon a annoncé qu'il produira un rapport à la fin de son enquête interne.
Amazon a déclaré : « nous publierons un rapport détaillé sur cet incident ». Mais certaines publications laissent entendre que l'IA pourrait être liée de près ou de loin à cet incident. Amazon est l'une des entreprises qui investissent le plus dans l'IA générative et envisage d'automatiser massivement les rôles au sein de l'entreprise. Selon certains critiques, en confiant trop de tâches à l'IA, les entreprises s'exposent davantage à des incidents majeurs.
Amazon aurait remplacé une bonne partie de ces DevOps par l'IA
Un rapport intéressant publié juste avant la panne affirme que l'entreprise a licencié 40 % de son équipe DevOps pour les remplacer par l'IA. Selon l'auteur de ce rapport, « une note de service, qui a été brièvement publiée sur le wiki interne avant d'être supprimée, attribue ces licenciements à des initiatives stratégiques d'automatisation ». Les entreprises déploient beaucoup d'efforts pour remplacer un grand nombre de travailleurs par des systèmes d'IA.
L'auteur rapporte que « l'IA détecte et corrige instantanément les erreurs d'autorisation IAM, reconstruit les configurations VPC ou sous-réseau défectueuses et annule les déploiements lambda ayant échoué sans intervention humaine ». L'article suscite le scepticisme et doit être pris avec beaucoup de prudence, mais le timing est curieux, même si nous ne prétendons pas qu'il soit vrai ou qu'il soit lié d'une manière ou d'une autre à la panne des systèmes.

Amazon prévoit de dépenser environ 100 milliards de dollars dans des centres de données d'IA en 2025, une somme qui ne sera clairement pas consacrée aux ingénieurs humains. Le géant du cloud computing investit également dans la startup Anthropic, qui développe Claude Code, un agent de codage accessible depuis un terminal. Claude Code comprend votre base de code et vous aide à coder plus rapidement grâce à des commandes en langage naturel.
Anthropic vient de lancer Claude Code pour le Web, une nouvelle façon de déléguer des tâches de codage directement depuis le navigateur. Actuellement en version bêta à titre d'aperçu de recherche, vous pouvez assigner plusieurs tâches de codage à Claude qui s'exécutent sur l'infrastructure cloud gérée par Anthropic.
Le problème des « connaissances institutionnelles » à l'ère de l'IA
Le remplacement d'ingénieurs expérimentés par l'IA présente un inconvénient : vous perdez ce que les techniciens appellent les « connaissances tribales ». En bref, il s'agit de la compréhension informelle et durement acquise du comportement réel des systèmes complexes dans le monde réel, le genre de connaissances qui ne s'acquiert qu'en ayant vécu des catastrophes par le passé. Ces informations sont inconnues des personnes extérieures au groupe.
Lorsque le DNS commence à fonctionner de manière irrégulière, un ingénieur AWS chevronné peut se souvenir : « Ah oui, vérifiez ce système apparemment sans rapport dans le coin, car il a déjà joué un rôle dans des pannes passées ». Ce type de mémoire institutionnelle n'existe pas dans les systèmes d'IA.
Ce savoir ne peut être facilement documenté ou transféré. Un observateur du secteur a fait remarquer qu'il a fallu 75 minutes aux ingénieurs AWS pour réduire le problème de « quelque chose ne fonctionne pas » à « c'est le point de terminaison DNS DynamoDB », un retard préoccupant pour une entreprise censée être l'épine dorsale de l'Internet moderne. Selon les experts, la panne de l'infrastructure AWS a mis en évidence trois vérités dérangeantes :
- nous sommes dangereusement centralisés : AWS contrôle environ 40 % du marché mondial des infrastructures cloud. Lorsqu'il tombe en panne, une grande partie d'Internet tombe avec lui. Microsoft et Google se partagent la majeure partie du reste. Cela représente beaucoup d'œufs dans très peu de paniers ;
- l'automatisation n'est pas prête à remplacer l'expertise : l'IA peut gérer les tâches routinières, mais lorsque les systèmes tombent en panne de manière inattendue (et c'est toujours le cas), vous avez besoin d'êtres humains qui comprennent les particularités et l'historique de votre infrastructure ;
- la stratégie de licenciement et de remplacement a des conséquences : vous ne pouvez pas atteindre la fiabilité en réduisant vos effectifs. Lorsque vous licenciez des ingénieurs expérimentés pour réduire les coûts ou parce que l'IA peut « faire leur travail », vous licenciez également les personnes qui savent comment réparer les choses lorsqu'elles tombent inévitablement en panne.
Comme l'a souligné un groupe d'experts, ces perturbations ne sont pas seulement des problèmes techniques, elles constituent également des échecs démocratiques. Lorsque Signal tombe en panne pendant un événement d'actualité critique, lorsque les services financiers deviennent inaccessibles pendant les heures d'ouverture des marchés, lorsque les services gouvernementaux ne peuvent plus fonctionner, c'est l'infrastructure qui fait défaut à la société.
Les entreprises remplacent massivement leurs travailleurs par l'IA
Selon un rapport de Goldman Sachs en 2023, les systèmes d'IA générative comme ChatGPT pourraient avoir un impact sur 300 millions d'emplois à temps plein dans le monde. Selon la banque d'investissement, les systèmes autonomes capables de créer un contenu indiscernable de la production humaine pourraient déclencher un boom de la productivité qui finirait par augmenter le produit intérieur brut mondial annuel de 7% sur une période de 10 ans.
Chez Salesforce, cette réalité a déjà pris forme. Le PDG Marc Benioff a admis que l'IA a permis de réorganiser son service client et réduire ses effectifs de 9 000 à 5 000 personnes. Il a qualifié les huit...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.