Car-tech

Οι πιο ισχυροί υπερυπολογιστές πέφτουν πιο σκληροί, ο ερευνητής προτείνει

Shyam Sankar: The rise of human-computer cooperation

Shyam Sankar: The rise of human-computer cooperation

Πίνακας περιεχομένων:

Anonim

Καθώς οι υπερυπολογιστές αναπτύσσονται πιο δυνατοί, θα γίνουν πιο ευάλωτοι στην αποτυχία, χάρη στην αυξημένη ποσότητα ενσωματωμένων εξαρτημάτων. Ορισμένοι ερευνητές στην πρόσφατη διάσκεψη της SC12 που πραγματοποιήθηκε την περασμένη εβδομάδα στο Salt Lake City της Γιούτα, προσέφεραν πιθανές λύσεις σε αυτό το αυξανόμενο πρόβλημα.

Τα συστήματα υψηλής απόδοσης HPC μπορούν να έχουν 100.000 κόμβους ή περισσότερα - στοιχεία μνήμης, επεξεργαστές, λεωφορεία και άλλα κυκλώματα. Στατιστικά, όλα αυτά τα στοιχεία θα αποτύχουν σε κάποιο σημείο και θα σταματήσουν τις επιχειρήσεις όταν το κάνουν, δήλωσε ο David Fiala, φοιτητής Ph.D στο Πανεπιστήμιο της Βόρειας Καρολίνας, κατά τη διάρκεια μιας ομιλίας στο SC12.

Το πρόβλημα δεν είναι ένα νέο, φυσικά. Όταν ο λευκός υπερυπολογιστής των 600 κόμβων ASCI (Accelerated Strategic Computing Initiative) του Εθνικού Εργαστηρίου του Lawrence Livermore ξεκίνησε τη λειτουργία του το 2001, είχε μέσο χρόνο αποτυχίας (MTBF) μόνο πέντε ωρών, χάρη εν μέρει σε αποτυχίες εξαρτημάτων. Οι μεταγενέστερες προσπάθειες συντονισμού είχαν βελτιώσει τον MTBF της ASCI White σε 55 ώρες, δήλωσε η Fiala.

Όμως, καθώς ο αριθμός των κόμβων του υπερυπολογιστού αυξάνεται, το πρόβλημα θα είναι το ίδιο. "Κάτι πρέπει να γίνει γι 'αυτό και θα επιδεινωθεί καθώς θα μετακομίζουμε σε αναταραχές", δήλωσε ο Fiala, αναφερόμενος στο πως οι υπερυπολογιστές της επόμενης δεκαετίας αναμένεται να έχουν δέκα φορές την υπολογιστική ισχύ που κάνουν τα σημερινά μοντέλα. για την αντιμετώπιση της αποτυχίας του συστήματος δεν μπορεί να κλιμακωθεί πολύ καλά, δήλωσε η Fiala. Ανέφερε το σημείο ελέγχου, στο οποίο ένα τρέχον πρόγραμμα διακόπτεται προσωρινά και η κατάστασή του αποθηκεύεται στο δίσκο. Αν το πρόγραμμα συνέλθει τότε το σύστημα είναι σε θέση να κάνει επανεκκίνηση της εργασίας από το τελευταίο σημείο ελέγχου.

NCSUDavid Fiala

Το πρόβλημα με τον έλεγχο σημείων, σύμφωνα με το Fiala, είναι ότι καθώς ο αριθμός των κόμβων αυξάνεται, που απαιτείται για να κάνει checkpointing αυξάνεται επίσης - και αυξάνεται με εκθετικό ρυθμό. Σε έναν υπερυπολογιστή 100.000 κόμβων, για παράδειγμα, μόνο το 35% της δραστηριότητας θα συμμετέχει στη διεξαγωγή των εργασιών. Το υπόλοιπο θα αναληφθεί με έλεγχο σημείων και, σε περίπτωση αποτυχίας λειτουργίας συστήματος αποκατάστασης, το Fiala εκτιμάται.

Λόγω του συνόλου του πρόσθετου υλικού που απαιτείται για τα συστήματα exascale, τα οποία θα μπορούσαν να κατασκευαστούν από ένα εκατομμύριο ή περισσότερα εξαρτήματα, να βελτιωθεί κατά 100 φορές για να διατηρηθεί το ίδιο MTBF που απολαμβάνουν οι σημερινοί υπερυπολογιστές, δήλωσε ο Fiala

Η παλιά, καλή συμβουλή: τα δεδομένα ασφαλείας

Η Fiala παρουσίασε τεχνολογία που αναπτύχθηκε από κοινού με ερευνητές που μπορούν να βελτιώσουν την αξιοπιστία. Η τεχνολογία αντιμετωπίζει το πρόβλημα της καταστροφής σιωπηρών δεδομένων, όταν τα συστήματα κάνουν ανιχνεύσιμα σφάλματα στην εγγραφή δεδομένων στο δίσκο.

Βασικά, η προσέγγιση των ερευνητών συνίσταται στην εκτέλεση πολλαπλών αντιγράφων ή "κλώνων" ενός προγράμματος ταυτόχρονα και στη συνέχεια στη σύγκριση των απαντήσεων. Το λογισμικό, το οποίο ονομάζεται RedMPI, εκτελείται σε συνδυασμό με τη διεπαφή μετάδοσης μηνυμάτων (MPI), μια βιβλιοθήκη για τη διάσπαση εφαρμογών που εκτελούνται σε πολλούς διακομιστές, ώστε τα διαφορετικά μέρη του προγράμματος να μπορούν να εκτελούνται παράλληλα.

Το RedMPI παρακολουθεί και αντιγράφει κάθε MPI μήνυμα που στέλνει μια εφαρμογή και αποστέλλει αντίγραφα του μηνύματος στον κλώνο (ή κλώνους) του προγράμματος. Αν οι διαφορετικοί κλώνοι υπολογίζουν διαφορετικές απαντήσεις, τότε οι αριθμοί μπορούν να υπολογιστούν εκ νέου, πράγμα που θα εξοικονομήσει χρόνο και πόρους από την εκτέλεση ολόκληρου του προγράμματος ξανά

"Η υλοποίηση του πλεονασμού δεν είναι δαπανηρή Μπορεί να είναι υψηλή στον αριθμό των μετρήσεων πυρήνα που χρειάζονται, αλλά αποφεύγει την ανάγκη επανεγγραφής με επανεκκίνηση του σημείου ελέγχου ", δήλωσε ο Fiala. "Η εναλλακτική λύση είναι, φυσικά, απλά να επαναλάβετε τις εργασίες μέχρι να φανταστεί κανείς ότι έχετε τη σωστή απάντηση."

Η Fiala συνέστησε την εκτέλεση δύο αντιγράφων ασφαλείας για κάθε πρόγραμμα, για τριπλή απόλυση. Αν και η εκτέλεση πολλαπλών αντιγράφων ενός προγράμματος θα είχε αρχικά περισσότερους πόρους, με την πάροδο του χρόνου θα μπορούσε να είναι αποτελεσματικότερος, λόγω του γεγονότος ότι δεν θα χρειαστεί να επαναληφθούν τα προγράμματα για να ελέγξετε τις απαντήσεις. Επίσης, ο έλεγχος σημείων μπορεί να μην είναι απαραίτητος όταν εκτελούνται πολλαπλά αντίγραφα, τα οποία επίσης θα εξοικονομούν πόρους συστήματος

Ο Miller

«Νομίζω ότι η ιδέα της δημιουργίας πλεονασμού είναι στην πραγματικότητα μια μεγάλη ιδέα. Για πολύ μεγάλους υπολογισμούς που περιλαμβάνουν εκατοντάδες χιλιάδες κόμβους, υπάρχει σίγουρα μια πιθανότητα να εισέλθουν σφάλματα» δήλωσε ο Ethan Miller, καθηγητής ηλεκτρονικών υπολογιστών στο Πανεπιστήμιο της Καλιφόρνιας Santa Cruz, ο οποίος παρακολούθησε την παρουσίαση. Αλλά δήλωσε ότι η προσέγγιση μπορεί να μην είναι κατάλληλη δεδομένης της ποσότητας της κίνησης δικτύου που μπορεί να δημιουργήσει μια τέτοια πλεονασμού. Προτάθηκε να τρέξει όλες τις εφαρμογές στο ίδιο σύνολο κόμβων, οι οποίες θα μπορούσαν να ελαχιστοποιήσουν την εσωτερική κίνηση.

Σε άλλη παρουσίαση, η Ana Gainaru, φοιτητής Ph.D από το Πανεπιστήμιο του Illinois στην Urbana-Champaign, παρουσίασε μια τεχνική ανάλυσης log αρχεία για την πρόβλεψη πότε θα εμφανιστούν αποτυχίες του συστήματος.

Η εργασία συνδυάζει ανάλυση σήματος με εξόρυξη δεδομένων. Η ανάλυση σήματος χρησιμοποιείται για τον χαρακτηρισμό της κανονικής συμπεριφοράς, οπότε σε περίπτωση αποτυχίας μπορεί να εντοπιστεί εύκολα. Η εξόρυξη δεδομένων αναζητά συσχετισμούς μεταξύ χωριστών αναφερθέντων βλαβών. Άλλοι ερευνητές έχουν δείξει ότι πολλές αποτυχίες μερικές φορές συσχετίζονται μεταξύ τους, επειδή μια αποτυχία με μία τεχνολογία μπορεί να επηρεάσει την απόδοση σε άλλους, σύμφωνα με τον Gainaru. Για παράδειγμα, όταν μια κάρτα δικτύου αποτύχει, σύντομα θα συγκαλύψει άλλες διαδικασίες του συστήματος που βασίζονται στην επικοινωνία μέσω δικτύου.

Οι ερευνητές διαπίστωσαν ότι το 70% των συσχετισμένων βλαβών παρέχει ένα παράθυρο ευκαιρίας για περισσότερο από 10 δευτερόλεπτα. Με άλλα λόγια, όταν εντοπίστηκε το πρώτο σημάδι μιας βλάβης, το σύστημα μπορεί να έχει έως και 10 δευτερόλεπτα για να αποθηκεύσει τη δουλειά του ή να μετακινήσει την εργασία σε άλλο κόμβο, πριν εμφανιστεί μια πιο κρίσιμη αποτυχία. "Η πρόβλεψη αποτυχίας μπορεί να συγχωνευτεί με άλλες τεχνικές αντοχής σφάλματος", δήλωσε ο Gainaru.

Ο Joab Jackson καλύπτει το λογισμικό των επιχειρήσεων και τις γενικές τεχνολογικές εξελίξεις για την

Υπηρεσία ειδήσεων IDG. Ακολουθήστε τον Joab στο Twitter στο @Joab_Jackson. Η διεύθυνση ηλεκτρονικού ταχυδρομείου του Joab είναι [email protected]