Début mars 2026, pendant près de six heures, le site Amazon.com et son application mobile sont devenus inaccessibles pour une partie significative des utilisateurs. Impossible de passer commande, de consulter son compte, d'afficher les prix. Officiellement, Amazon a invoqué une mise à jour logicielle défaillante comme cause de l'incident. Officieusement, c'est une autre histoire que racontent les documents internes.
Selon le Financial Times, qui a eu accès à une note de briefing interne, Amazon a lui-même décrit une « tendance aux incidents » caractérisée par un « rayon d'explosion élevé » (high blast radius) et des « changements assistés par GenAI ». Parmi les facteurs qui y ont contribué figurait explicitement « l'usage nouveau de la GenAI, pour lequel les meilleures pratiques et les garde-fous ne sont pas encore pleinement établis ».
Une réunion de crise en mode TWiST
Dave Treadwell, le vice-président senior en charge des fondations techniques du site Amazon, a écrit à ses équipes : « Comme vous le savez probablement, la disponibilité du site et de l'infrastructure associée n'a pas été bonne récemment. » Il a convoqué une réunion TWiST (This Week in Stores Tech), qui est habituellement facultative, en la rendant obligatoire, pour effectuer une plongée en profondeur sur « certains des problèmes qui nous ont conduits là ».
Ce TWiST d'urgence a débouché sur une mesure immédiate : les modifications de code assistées par IA devront désormais être approuvées par des ingénieurs seniors avant tout déploiement. Une décision qui, pour beaucoup d'observateurs, relève du bon sens le plus élémentaire et qui soulève des questions bien plus profondes sur les pratiques qui ont rendu cette mesure nécessaire.
Un historique qui s'alourdit
Cette panne de mars n'est pas un accident isolé. Elle s'inscrit dans une série d'incidents qui remonte au moins à la fin 2025. En décembre 2025, un incident impliquant l'outil de codage agentique Kiro, un EDI développé en interne chez Amazon pour automatiser ou accélérer les modifications de code, avait provoqué treize heures d'indisponibilité d'une fonctionnalité de gestion des coûts AWS. Selon des témoignages internes, des ingénieurs avaient laissé l'agent IA résoudre des problèmes sans intervention humaine, ce qui aurait conduit l'outil à « supprimer et recréer l'environnement ».
Face à ces révélations, Amazon avait alors adopté des garde-fous : revue entre pairs obligatoire pour les accès en production, formations internes. La panne de mars 2026 montre que ces mesures n'ont pas suffi.
À chaque incident, Amazon a maintenu la même ligne de défense. En février, après un incident affectant AWS Cost Explorer dans la partition Chine continentale, un porte-parole déclarait : « Nous n'avons pas constaté de preuves convaincantes que les incidents sont plus fréquents avec les outils IA. » Interrogé à nouveau par The Register après les révélations du FT, Amazon a confirmé que cette position restait inchangée, sans pour autant fournir les données qui permettraient une analyse indépendante.
Corey Quinn, chief cloud economist chez Duckbill, avait résumé l'absurdité de la situation avec une formule percutante : « AWS préfèrerait que le monde croie que ses ingénieurs sont incompétents plutôt qu'admettre que son intelligence artificielle a fait une erreur. »
Le piège des suppressions de postes en cascade
Pour comprendre ce qui se joue réellement chez Amazon, il faut remonter plus loin. Le géant a licencié des dizaines de milliers d'employés depuis 2022, dont 16 000 travailleurs dans sa dernière vague de janvier 2026, tout en annonçant simultanément un investissement prévu de 200 milliards de dollars en dépenses d'infrastructure pour l'année. La logique est simple sur le papier : moins d'humains, plus d...
