AWS partage plus de détails sur la panne de la semaine dernière qui a eu des conséquences mondiales. Une seule erreur dans le système de gestion DNS de DynamoDB a entraîné une malheureuse réaction en chaîne.
Le 20 octobre, près de la moitié d’Internet a été coupée en raison d’une panne chez AWS. De nombreux sites web et applications populaires tels que Roblox, Reddit, Asana, Signal et la boutique en ligne de la société mère Amazon ont été touchés. Bien que la panne se soit produite dans une région de centre de données américaine (us-east-1), les conséquences se sont fait sentir à l’échelle mondiale.
AWS avait promis de partager plus d’informations et a publié un rapport d’incident. La cause de la panne est remarquablement simple. Une seule erreur logicielle dans un système de gestion DNS s’est avérée suffisante pour paralyser temporairement plusieurs services AWS. L’impact a affecté, entre autres, DynamoDB, EC2, Lambda, Redshift et le centre de support AWS.
La cause était une condition de concurrence dans le système de gestion DNS automatisé de DynamoDB, écrit AWS dans un rapport. Cela a entraîné l’application d’un plan DNS obsolète, après quoi le système a automatiquement supprimé le plan actif. En conséquence, les clients et les autres services AWS n’ont plus pu se connecter au point de terminaison DynamoDB dans la région affectée.
Effet domino
La panne a eu un effet domino sur d’autres services AWS qui s’est fait sentir dans le monde entier. Les instances EC2 déjà en cours d’exécution ont continué à fonctionner, mais les nouveaux lancements ont échoué car le gestionnaire de flux de travail Droplet (DWFM), qui dépend de DynamoDB, ne pouvait plus maintenir de baux.
Après la restauration de DynamoDB, DWFM a dû se reconnecter à des milliers de droplets. En raison des retards, le système s’est bloqué, ce qui n’a été résolu qu’après le redémarrage des hôtes DWFM.
Simultanément, le retard du réseau a causé des problèmes avec le Network Load Balancer (NLB). Les nouvelles instances EC2 n’ont pas pu être correctement ajoutées au NLB, entraînant l’échec des contrôles de santé. Cela a conduit à des basculements erronés et à une augmentation des erreurs de connexion.
D’autres services tels que Lambda, Redshift, ECS, EKS, Fargate et le service de support ont également été affectés. Les clusters Redshift ne pouvaient pas authentifier les utilisateurs IAM et certains clusters sont devenus inutilisables en raison d’actions de récupération échouées. ECS, EKS et Fargate ont connu des retards dans le démarrage des conteneurs. Le centre de support AWS est devenu temporairement inaccessible en raison de métadonnées erronées.
Un bug, un impact important
Le problème montre à quel point les services des grands fournisseurs de cloud sont essentiels aujourd’hui. Même une panne dans un seul centre de données régional peut avoir des conséquences mondiales. Selon les premières
Amazon a désactivé l’automatisation DNS dans le monde entier et travaille sur une solution structurelle au problème. Amazon promet des mesures supplémentaires pour les autres services affectés afin d’améliorer davantage la résilience et la vitesse de récupération de leur infrastructure.
