Amazon aurait remplacé 40 % de ses effectifs DevOps AWS par l'IA quelques jours avant la panne majeure qui a mis hors service un large pan d'Internetet paralysé des institutions financières
AWS a subi à une panne majeure le 20 octobre 2025. L'incident a paralysé plusieurs plateformes et services à l'échelle mondiale, et rappelle le danger d'une dépendance accrue à quelques grands fournisseurs. Parmi les services touchés figuraient des applications populaires telles que Snapchat, Roblox, Signal, Coinbase, Ring, Fortnite, Zoom, Venmo, Reddit, Prime Video, Duolingo, Alexa, Canva, ainsi que des institutions financières comme Lloyds et Halifax au Royaume-Uni. Le rapport final de l'incident n'est pas encore disponible. Mais un initié allègue que la panne est survenue seulement quelques jours après qu'AWS a remplacé 40 % de son équipe DevOps par l'IA.
La panne a été attribuée à un dysfonctionnement du système de surveillance interne des équilibres de charge (load balancers) dans la région US-East-1 d'AWS, en Virginie, ce qui a entraîné des erreurs DNS et des perturbations en cascade. À 18 h 53 (heure de l'Est), une mise à jour du portail AWS Health Dashboard indiquait que la panne avait été résolue vers 18 heures et que les 142 services qui étaient hors service le matin fonctionnaient à nouveau.
Des millions d'entreprises dépendent d'AWS, et les deux seuls autres fournisseurs de services cloud d'envergure similaire sont Microsoft Azure et Google Cloud Platform. Il n'est pas rare que ces fournisseurs rencontrent des problèmes avec le DNS. En 2012, Microsoft Azure a connu une panne du DNS due à un pic de trafic. En juillet 2025, le résolveur DNS de Cloudflare a connu une panne qui, selon la société, était due à une erreur de configuration interne.
Selon le portail AWS Health Dashboard, le nord de la Virginie, où le dysfonctionnement s'est produit, est un lieu courant pour les centres de données. En 2023, les centres de données de Virginie consomment un quart de l'électricité disponible dans l'État, et les habitants s'inquiètent de plus en plus de l'impact de ces constructions sur leur qualité de vie, malgré les recettes fiscales promises. Amazon a annoncé qu'il produira un rapport à la fin de son enquête interne.
Amazon a déclaré : « nous publierons un rapport détaillé sur cet incident ». Mais certaines publications laissent entendre que l'IA pourrait être liée de près ou de loin à cet incident. Amazon est l'une des entreprises qui investissent le plus dans l'IA générative et envisage d'automatiser massivement les rôles au sein de l'entreprise. Selon certains critiques, en confiant trop de tâches à l'IA, les entreprises s'exposent davantage à des incidents majeurs.
Amazon aurait remplacé une bonne partie de ses DevOps par l'IA
Un rapport intéressant publié juste avant la panne affirme que l'entreprise a licencié 40 % de son équipe DevOps pour les remplacer par l'IA. Selon l'auteur de ce rapport, « une note de service, qui a été brièvement publiée sur le wiki interne avant d'être supprimée, attribue ces licenciements à des initiatives stratégiques d'automatisation ». Les entreprises déploient beaucoup d'efforts pour remplacer un grand nombre de travailleurs par des systèmes d'IA.
L'auteur rapporte que « l'IA détecte et corrige instantanément les erreurs d'autorisation IAM, reconstruit les configurations VPC ou sous-réseau défectueuses et annule les déploiements lambda ayant échoué sans intervention humaine ». L'article suscite le scepticisme et doit être pris avec beaucoup de prudence, mais le timing est curieux, même si nous ne prétendons pas qu'il soit vrai ou qu'il soit lié d'une manière ou d'une autre à la panne des systèmes.
Amazon prévoit de dépenser environ 100 milliards de dollars dans des centres de données d'IA en 2025, une somme qui ne sera clairement pas consacrée aux ingénieurs humains. Le géant du cloud computing investit également dans la startup Anthropic, qui développe Claude Code, un agent de codage accessible depuis un terminal. Claude Code comprend votre base de code et vous aide à coder plus rapidement grâce à des commandes en langage naturel.
Anthropic vient de lancer Claude Code pour le Web, une nouvelle façon de déléguer des tâches de codage directement depuis le navigateur. Actuellement en version bêta à titre d'aperçu de recherche, vous pouvez assigner plusieurs tâches de codage à Claude qui s'exécutent sur l'infrastructure cloud gérée par Anthropic.
Le problème des « connaissances institutionnelles » à l'ère de l'IA
Le remplacement d'ingénieurs expérimentés par l'IA présente un inconvénient : vous perdez ce que les techniciens appellent les « connaissances tribales ». En bref, il s'agit de la compréhension informelle et durement acquise du comportement réel des systèmes complexes dans le monde réel, le genre de connaissances qui ne s'acquiert qu'en ayant vécu des catastrophes par le passé. Ces informations sont inconnues des personnes extérieures au groupe.
Lorsque le DNS commence à fonctionner de manière irrégulière, un ingénieur AWS chevronné peut se souvenir : « Ah oui, vérifiez ce système apparemment sans rapport dans le coin, car il a déjà joué un rôle dans des pannes passées ». Ce type de mémoire institutionnelle n'existe pas dans les systèmes d'IA.
Ce savoir ne peut être facilement documenté ou transféré. Un observateur du secteur a fait remarquer qu'il a fallu 75 minutes aux ingénieurs AWS pour réduire le problème de « quelque chose ne fonctionne pas » à « c'est le point de terminaison DNS DynamoDB », un retard préoccupant pour une entreprise censée être l'épine dorsale de l'Internet moderne. Selon les experts, la panne de l'infrastructure AWS a mis en évidence trois vérités dérangeantes :
- nous sommes dangereusement centralisés : AWS contrôle environ 40 % du marché mondial des infrastructures cloud. Lorsqu'il tombe en panne, une grande partie d'Internet tombe avec lui. Microsoft et Google se partagent la majeure partie du reste. Cela représente beaucoup d'œufs dans très peu de paniers ;
- l'automatisation n'est pas prête à remplacer l'expertise : l'IA peut gérer les tâches routinières, mais lorsque les systèmes tombent en panne de manière inattendue (et c'est toujours le cas), vous avez besoin d'êtres humains qui comprennent les particularités et l'historique de votre infrastructure ;
- la stratégie de licenciement et de remplacement a des conséquences : vous ne pouvez pas atteindre la fiabilité en réduisant vos effectifs. Lorsque vous licenciez des ingénieurs expérimentés pour réduire les coûts ou parce que l'IA peut « faire leur travail », vous licenciez également les personnes qui savent comment réparer les choses lorsqu'elles tombent inévitablement en panne.
Comme l'a souligné un groupe d'experts, ces perturbations ne sont pas seulement des problèmes techniques, elles constituent également des échecs démocratiques. Lorsque Signal tombe en panne pendant un événement d'actualité critique, lorsque les services financiers deviennent inaccessibles pendant les heures d'ouverture des marchés, lorsque les services gouvernementaux ne peuvent plus fonctionner, c'est l'infrastructure qui fait défaut à la société.
Les entreprises remplacent massivement leurs travailleurs par l'IA
Selon un rapport de Goldman Sachs en 2023, les systèmes d'IA générative comme ChatGPT pourraient avoir un impact sur 300 millions d'emplois à temps plein dans le monde. Selon la banque d'investissement, les systèmes autonomes capables de créer un contenu indiscernable de la production humaine pourraient déclencher un boom de la productivité qui finirait par augmenter le produit intérieur brut mondial annuel de 7% sur une période de 10 ans.
Chez Salesforce, cette réalité a déjà pris forme. Le PDG Marc Benioff a admis que l'IA a permis de réorganiser son service client et réduire ses effectifs de 9 000 à 5 000 personnes. Il a qualifié les huit derniers mois de « plus passionnants » de sa carrière, même si l'entreprise a supprimé des milliers d'emplois.
Marc Benioff, qui a cofondé Salesforce en 1999, a déclaré que les agents IA, qui décomposent les tâches complexes en étapes plus petites et peuvent accomplir des missions de manière indépendante, ont remodelé les opérations de l'entreprise. « Si nous avions eu cette conversation il y a un an et que vous aviez appelé Salesforce, vous auriez été en contact avec 9 000 personnes à travers le monde sur notre service cloud », a-t-il déclaré.
Les dernières réductions d'effectifs chez Microsoft ont touché particulièrement les studios de jeux vidéo de l'entreprise. Des studios entiers ont été fermés, d'autres ont été vidés de la plupart de leurs employés, des jeux ont été annulés et un nombre important de développeurs ont été licenciés ou ont décidé de partir volontairement. Un développeur rapporte : « ils font tout leur possible pour remplacer autant d'emplois que possible par des agents d'IA ».
Microsoft effectue un virage vers l'IA. Le PDG Satya Nadella a annoncé ce printemps que 30 % du code de l'entreprise est désormais écrit par l'IA, et le mois dernier, l'utilisation d'outils tels que GitHub Copilot est devenue obligatoire. Microsoft a même l'intention de noter cet usage. L'IA touche désormais à tout, de l'ingénierie à la documentation et, de plus en plus, aux décisions en matière de personnel. Il en résulte un type de perturbation plus discret.
Conclusion
La panne d'AWS a duré environ 15 heures, du début à la fin. Comparé à certains incidents passés, ce n'est pas si grave. Mais il s'agit d'un avertissement. La panne provoquée par la mise à jour défectueuse de CrowdStrike le 19 juillet 2024 a duré plusieurs jours et a mis hors service 8,5 millions de machines Windows. De nombreux aéroports avaient été paralysés dans le monde entier, avec des milliers de vols annulés et plusieurs milliards de dégâts financiers.
AWS (Amazon) va certainement mener une enquête approfondie, mettre en place de nouvelles mesures de sécurité et probablement envoyer des communications rassurantes sur la façon dont l'entreprise améliore les choses. Cependant, la question fondamentale demeure : une entreprise qui réduit agressivement ses effectifs tout en misant gros sur l'IA générative peut-elle maintenir l'infrastructure complexe et critique dont dépend la société moderne ?
La réponse pourrait venir sous la forme d'une prochaine panne. Et compte tenu de la trajectoire actuelle, de nombreux experts ne se demandent pas s'il y aura un autre incident majeur, mais quand il se produira, et s'il y aura encore suffisamment de personnes expérimentées pour le résoudre rapidement.
Source : billet de blogue
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du remplacement des ingénieurs expérimentés par l'IA ?
À long terme, quels seraient les impacts de cette automatisation accrue sur l'industrie technologique ?
Pensez-vous que l'IA est liée d'une manière ou d'une autre à la panne majeure de l'infrastructure AWS ? Pourquoi ?Voir aussi
La panne d'AWS a provoqué la surchauffe et le blocage en position verticale de lits « intelligents » à 2 000 dollars, dévoilant la fragilité du rêve connecté d'Eight Sleep
Les services cloud AWS d'Amazon rétablis après une panne d'une journée qui a touché plusieurs sites web importants : « nous publierons un rapport détaillé sur cet incident », a déclaré la société
La panne d'AWS montre que les internautes sont « à la merci » d'un nombre trop restreint de fournisseurs, selon des experts. AWS héberge aujourd'hui une part considérable de l'économie numérique
Vous avez lu gratuitement 1 680 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
