Χθες, πραγματοποιήθηκε μια ευρεία αναστάτωση στο Διαδίκτυο, με πολλούς ιστότοπους και υπηρεσίες να αντιμετωπίζουν σοβαρές καθυστερήσεις ή και ολοκληρωτική αδυναμία πρόσβασης. Το πρόβλημα προήλθε από την Cloudflare, μία από τις πιο αναγνωρίσιμες εταιρείες παροχής υπηρεσιών στο Διαδίκτυο. Παρά την αρχική εκτίμηση ότι επρόκειτο για μια μαζική κυβερνοεπίθεση, η εταιρεία τελικά διαπίστωσε ότι η αιτία του προβλήματος ήταν ένα σοβαρό σφάλμα που προήλθε από μια ενημέρωση λογισμικού της.
Σύμφωνα με τη Cloudflare, οι συνδέσεις διακόπτονταν για ένα περίπου πεντάλεπτο με επαναλαμβανόμενα προβλήματα. Αυτή η ασυνήθιστη συμπεριφορά ώθησε την εταιρεία να υποθέσει ότι υπήρχε επίθεση DDoS (Distributed Denial-of-Service) σε εξέλιξη, καθώς ένα τεχνικό σφάλμα συνήθως δεν αποκαθίσταται αυτόματα.
Μια επίθεση DDoS συμβαίνει όταν κακόβουλοι χρήστες στέλνουν έναν τεράστιο όγκο αιτημάτων προς έναν διακομιστή, με στόχο να καταναλώσουν τη διαθέσιμη χωρητικότητα και να αποκλείσουν την πρόσβαση σε πραγματικούς χρήστες. Ωστόσο, αυτό που φαινόταν αρχικά να επιβεβαιώνει την υποψία μιας κυβερνοεπίθεσης αποδείχθηκε απλώς αποτέλεσμα μιας σύμπτωσης.
Ένα άλλο στοιχείο που μας προκάλεσε ανησυχία ήταν η δυσλειτουργία της σελίδας κατάστασης της Cloudflare, η οποία φιλοξενείται εκτός της υποδομής της. Αυτή η σύμπτωση οδήγησε κάποιοι στην ομάδα διάγνωσης να αναρωτηθούν μήπως αναγνωρίζαμε μια επίθεση και εκεί.
Αφού ξεκαθάρισαν την κατάσταση, οι υπεύθυνοι εντόπισαν το πρόβλημα σε μια λανθασμένη ενημέρωση αρχείου που σχετίζεται με το bot management system. Υπάρχει ένας άγραφος κανόνας στην πληροφορική που λέει ότι όταν προκύπτουν περίεργα συμπτώματα, το πιθανότερο είναι ότι η πηγή του προβλήματος βρίσκεται στα δικαιώματα – και έτσι συνέβη και στην περίπτωση αυτή.
Η αλλαγή σε ένα από τα δικαιώματα σε ένα σύστημα βάσεων δεδομένων προκάλεσε την εξαγωγή πολλών εγγραφών από τη βάση σε ένα “αρχείο χαρακτηριστικών”, το οποίο χρησιμοποιείται για τη διαχείριση των bots. Αυτό το αρχείο έγινε μεγαλύτερο από το αναμενόμενο, προκαλώντας έτσι μια αλυσιδωτή αντίδραση σε όλα τα μηχανήματα του δικτύου μας. Το λογισμικό που διαχειρίζεται την κυκλοφορία ανέμενε ένα συγκεκριμένο μέγεθος για το αρχείο χαρακτηριστικών, και όταν αυτό το όριο ξεπεράστηκε, προέκυψε η αποτυχία του συστήματος.
Ακόμη, υπήρχε μια απλή εξήγηση για τον υπόλοιπο προβληματικό κύκλο των πέντε λεπτών.
Η ενημέρωση του αρχείου γινόταν κάθε πέντε λεπτά βάσει ενός ερωτήματος σε ένα σύμπλεγμα βάσεων δεδομένων ClickHouse, το οποίο σταδιακά βελτιωνόταν. Αν το αίτημα εκτελείτο σε ενημερωμένο μέρος του συμπλέγματος, υπήρχε πιθανότητα να προκύψει είτε ένα καλό είτε ένα προβληματικό σύνολο δεδομένων που διαδιδόταν ταχύτατα.
Η Cloudflare, αναγνωρίζοντας την σοβαρότητα της κατάστασης, εξέδωσε επίσημη συγγνώμη, χαρακτηρίζοντας το λάθος ως «βαθιά οδυνηρό».
Λυπούμαστε βαθιά για την αναστάτωση που προκλήθηκε στους πελάτες μας και στο οικοσύστημα του διαδικτύου στο σύνολό του. Η Cloudflare διαδραματίζει κρίσιμο ρόλο στο διαδικτυακό οικοσύστημα, και οποιαδήποτε διακοπή της λειτουργίας μας είναι απολύτως απαράδεκτη. Η αδυναμία του δικτύου μας να δρομολογήσει την κυκλοφορία είναι μια απογοήτευση για όλους μας. Σας ευχαριστούμε για την κατανόησή σας.
Για περισσότερες λεπτομέρειες σχετικά με τη Cloudflare, μπορείτε να επισκεφθείτε την επίσημη σελίδα τους εδώ.










