Une simple erreur DNS a causé une panne majeure d’AWS

.cloud
27.10.'25 09:15
4 min

Jens Jonkers

AWS partage plus de détails sur la panne de la semaine dernière qui a eu des conséquences mondiales. Une seule erreur dans le système de gestion DNS de DynamoDB a entraîné une malheureuse réaction en chaîne.

Le 20 octobre, près de la moitié d’Internet a été coupée en raison d’une panne chez AWS. De nombreux sites web et applications populaires tels que Roblox, Reddit, Asana, Signal et la boutique en ligne de la société mère Amazon ont été touchés. Bien que la panne se soit produite dans une région de centre de données américaine (us-east-1), les conséquences se sont fait sentir à l’échelle mondiale.

AWS avait promis de partager plus d’informations et a publié un rapport d’incident. La cause de la panne est remarquablement simple. Une seule erreur logicielle dans un système de gestion DNS s’est avérée suffisante pour paralyser temporairement plusieurs services AWS. L’impact a affecté, entre autres, DynamoDB, EC2, Lambda, Redshift et le centre de support AWS.

La cause était une condition de concurrence dans le système de gestion DNS automatisé de DynamoDB, écrit AWS dans un rapport. Cela a entraîné l’application d’un plan DNS obsolète, après quoi le système a automatiquement supprimé le plan actif. En conséquence, les clients et les autres services AWS n’ont plus pu se connecter au point de terminaison DynamoDB dans la région affectée.

Effet domino

La panne a eu un effet domino sur d’autres services AWS qui s’est fait sentir dans le monde entier. Les instances EC2 déjà en cours d’exécution ont continué à fonctionner, mais les nouveaux lancements ont échoué car le gestionnaire de flux de travail Droplet (DWFM), qui dépend de DynamoDB, ne pouvait plus maintenir de baux.

Après la restauration de DynamoDB, DWFM a dû se reconnecter à des milliers de droplets. En raison des retards, le système s’est bloqué, ce qui n’a été résolu qu’après le redémarrage des hôtes DWFM.

Simultanément, le retard du réseau a causé des problèmes avec le Network Load Balancer (NLB). Les nouvelles instances EC2 n’ont pas pu être correctement ajoutées au NLB, entraînant l’échec des contrôles de santé. Cela a conduit à des basculements erronés et à une augmentation des erreurs de connexion.

D’autres services tels que Lambda, Redshift, ECS, EKS, Fargate et le service de support ont également été affectés. Les clusters Redshift ne pouvaient pas authentifier les utilisateurs IAM et certains clusters sont devenus inutilisables en raison d’actions de récupération échouées. ECS, EKS et Fargate ont connu des retards dans le démarrage des conteneurs. Le centre de support AWS est devenu temporairement inaccessible en raison de métadonnées erronées.

Un bug, un impact important

Le problème montre à quel point les services des grands fournisseurs de cloud sont essentiels aujourd’hui. Même une panne dans un seul centre de données régional peut avoir des conséquences mondiales. Selon les premières estimations des experts, l’impact financier de la panne s’élèvera à des milliards de dollars. Les temps d’arrêt coûtent cher.

Amazon a désactivé l’automatisation DNS dans le monde entier et travaille sur une solution structurelle au problème. Amazon promet des mesures supplémentaires pour les autres services affectés afin d’améliorer davantage la résilience et la vitesse de récupération de leur infrastructure.

en avant

Comment continuer à utiliser Windows 10 gratuitement et en toute sécurité après le 14 octobre

.logiciel
08.10.'25
5 min

récemment dans cloud

Google apporte le ‘vibe coding’ à AI Studio

.cloud
22.10.'25
3 min

Claude Code s’étend au web

.cloud
21.10.'25
3 min

Des problèmes chez AWS aux États-Unis mettent Asana et Signal hors ligne dans le monde entier

.cloud
21.10.'25
3 min

plus cloud

sol

« * » indique les champs nécessaires

table ronde

NIS2 2025

.sécurité
06.10.'25
5 min

Cloud 2025

.cloud
07.07.'25
5 min

plus de tables rondes

événements

Educause 2025

27/10/2025

OpenText Summit Poland 2025

28/10/2025

SAP NOW AI Tour

30/10/2025

plus d'events

Itdaily - Une simple erreur DNS a causé une panne majeure d’AWS

Effet domino

Un bug, un impact important