Η Amazon λέει ότι μια σημαντική αποτυχία DNS ήταν πίσω από μια τεράστια διακοπή του AWS (Amazon Web Services) που κατέστρεψε πολλούς ιστότοπους και διαδικτυακές υπηρεσίες τη Δευτέρα.
Όπως ανέφερε το BleepinComputer νωρίτερα αυτή την εβδομάδα, αυτό το περιστατικό επηρέασε ένα κρίσιμο κέντρο δεδομένων της Βόρειας Βιρτζίνια στην περιοχή US-EAST-1, επηρεάζοντας χρήστες σε όλο τον κόσμο, συμπεριλαμβανομένων των Ηνωμένων Πολιτειών και της Ευρώπης, για περισσότερες από 14 ώρες.
Σύμφωνα με α μεταθανάτια Δημοσιεύθηκε την Πέμπτη, μια συνθήκη αγώνα προκάλεσε μια σημαντική αποτυχία DNS στην υποδομή του Amazon DynamoDB, ειδικά στο σύστημα διαχείρισης DNS που ελέγχει τον τρόπο δρομολόγησης των αιτημάτων των χρηστών σε υγιείς διακομιστές, γεγονός που οδήγησε στην τυχαία διαγραφή όλων των διευθύνσεων IP για το περιφερειακό τελικό σημείο της υπηρεσίας βάσης δεδομένων.
“Η βασική αιτία αυτού του προβλήματος ήταν μια λανθάνουσα κατάσταση αγώνα στο σύστημα διαχείρισης DynamoDB DNS που είχε ως αποτέλεσμα μια λανθασμένη άδεια εγγραφή DNS για το περιφερειακό τελικό σημείο της υπηρεσίας (dynamodb.us-east-1.amazonaws.com) που ο αυτοματισμός απέτυχε να επιδιορθώσει”, δήλωσε η Amazon.
“Όταν παρουσιάστηκε αυτό το ζήτημα στις 11:48 μ.μ. PDT, όλα τα συστήματα που χρειαζόταν να συνδεθούν με την υπηρεσία DynamoDB στην περιοχή N. Virginia (us-east-1) μέσω του δημόσιου τελικού σημείου άρχισαν αμέσως να αντιμετωπίζουν αποτυχίες DNS και απέτυχαν να συνδεθούν στο DynamoDB. Αυτό περιλάμβανε επισκεψιμότητα πελατών καθώς και κίνηση από εσωτερικές υπηρεσίες AWS που βασίζονται στο DynamoD.”
Η αποτυχία του DynamoDB προκάλεσε διαδοχικά προβλήματα σε όλη την υποδομή AWS, αφήνοντας το σύστημα DNS του DynamoDB σε ασυνεπή κατάσταση που δεν μπορούσε να επιλύσει η αυτόματη ανάκτηση, απαιτώντας χειροκίνητη παρέμβαση του χειριστή.
Έκτοτε, η Amazon απενεργοποίησε τον αυτοματισμό DNS με buggy παγκοσμίως και έλαβε μέτρα για την αποφυγή παρόμοιων προβλημάτων, συμπεριλαμβανομένης της προσθήκης προστατευτικών ελέγχων, της βελτίωσης των μηχανισμών στραγγαλισμού και της δημιουργίας μιας πρόσθετης σουίτας δοκιμών για τον εντοπισμό παρόμοιων σφαλμάτων στο μέλλον.
“Ζητούμε συγγνώμη για τον αντίκτυπο που προκάλεσε αυτό το συμβάν στους πελάτες μας. Ενώ έχουμε ισχυρό ιστορικό λειτουργίας των υπηρεσιών μας με τα υψηλότερα επίπεδα διαθεσιμότητας, γνωρίζουμε πόσο κρίσιμες είναι οι υπηρεσίες μας για τους πελάτες μας, τις εφαρμογές και τους τελικούς χρήστες τους και τις επιχειρήσεις τους”, πρόσθεσε η Amazon.
“Γνωρίζουμε ότι αυτό το γεγονός επηρέασε πολλούς πελάτες με σημαντικούς τρόπους. Θα κάνουμε ό,τι μπορούμε για να μάθουμε από αυτό το γεγονός και να το χρησιμοποιήσουμε για να βελτιώσουμε τη διαθεσιμότητά μας ακόμη περισσότερο.”
VIA: bleepingcomputer.com






