Οι πιο ισχυροί υπερυπολογιστές πέφτουν πιο σκληροί, ο ερευνητής προτείνει

Shyam Sankar: The rise of human-computer cooperation

Πίνακας περιεχομένων:

Η Fiala παρουσίασε τεχνολογία που αναπτύχθηκε από κοινού με ερευνητές που μπορούν να βελτιώσουν την αξιοπιστία . Η τεχνολογία αντιμετωπίζει το πρόβλημα της καταστροφής σιωπηρών δεδομένων, όταν τα συστήματα κάνουν ανιχνεύσιμα σφάλματα στην εγγραφή δεδομένων στο δίσκο.

Καθώς οι υπερυπολογιστές αναπτύσσονται πιο δυνατοί, θα γίνουν πιο ευάλωτοι στην αποτυχία, χάρη στην αυξημένη ποσότητα ενσωματωμένων εξαρτημάτων. Ορισμένοι ερευνητές στην πρόσφατη διάσκεψη της SC12 που πραγματοποιήθηκε την περασμένη εβδομάδα στο Salt Lake City της Γιούτα, προσέφεραν πιθανές λύσεις σε αυτό το αυξανόμενο πρόβλημα.

Τα συστήματα υψηλής απόδοσης HPC μπορούν να έχουν 100.000 κόμβους ή περισσότερα - στοιχεία μνήμης, επεξεργαστές, λεωφορεία και άλλα κυκλώματα. Στατιστικά, όλα αυτά τα στοιχεία θα αποτύχουν σε κάποιο σημείο και θα σταματήσουν τις επιχειρήσεις όταν το κάνουν, δήλωσε ο David Fiala, φοιτητής Ph.D στο Πανεπιστήμιο της Βόρειας Καρολίνας, κατά τη διάρκεια μιας ομιλίας στο SC12.

Το πρόβλημα δεν είναι ένα νέο, φυσικά. Όταν ο λευκός υπερυπολογιστής των 600 κόμβων ASCI (Accelerated Strategic Computing Initiative) του Εθνικού Εργαστηρίου του Lawrence Livermore ξεκίνησε τη λειτουργία του το 2001, είχε μέσο χρόνο αποτυχίας (MTBF) μόνο πέντε ωρών, χάρη εν μέρει σε αποτυχίες εξαρτημάτων. Οι μεταγενέστερες προσπάθειες συντονισμού είχαν βελτιώσει τον MTBF της ASCI White σε 55 ώρες, δήλωσε η Fiala.

Όμως, καθώς ο αριθμός των κόμβων του υπερυπολογιστού αυξάνεται, το πρόβλημα θα είναι το ίδιο. "Κάτι πρέπει να γίνει γι 'αυτό και θα επιδεινωθεί καθώς θα μετακομίζουμε σε αναταραχές", δήλωσε ο Fiala, αναφερόμενος στο πως οι υπερυπολογιστές της επόμενης δεκαετίας αναμένεται να έχουν δέκα φορές την υπολογιστική ισχύ που κάνουν τα σημερινά μοντέλα. για την αντιμετώπιση της αποτυχίας του συστήματος δεν μπορεί να κλιμακωθεί πολύ καλά, δήλωσε η Fiala. Ανέφερε το σημείο ελέγχου, στο οποίο ένα τρέχον πρόγραμμα διακόπτεται προσωρινά και η κατάστασή του αποθηκεύεται στο δίσκο. Αν το πρόγραμμα συνέλθει τότε το σύστημα είναι σε θέση να κάνει επανεκκίνηση της εργασίας από το τελευταίο σημείο ελέγχου.

NCSUDavid Fiala

Το πρόβλημα με τον έλεγχο σημείων, σύμφωνα με το Fiala, είναι ότι καθώς ο αριθμός των κόμβων αυξάνεται, που απαιτείται για να κάνει checkpointing αυξάνεται επίσης - και αυξάνεται με εκθετικό ρυθμό. Σε έναν υπερυπολογιστή 100.000 κόμβων, για παράδειγμα, μόνο το 35% της δραστηριότητας θα συμμετέχει στη διεξαγωγή των εργασιών. Το υπόλοιπο θα αναληφθεί με έλεγχο σημείων και, σε περίπτωση αποτυχίας λειτουργίας συστήματος αποκατάστασης, το Fiala εκτιμάται.

Λόγω του συνόλου του πρόσθετου υλικού που απαιτείται για τα συστήματα exascale, τα οποία θα μπορούσαν να κατασκευαστούν από ένα εκατομμύριο ή περισσότερα εξαρτήματα, να βελτιωθεί κατά 100 φορές για να διατηρηθεί το ίδιο MTBF που απολαμβάνουν οι σημερινοί υπερυπολογιστές, δήλωσε ο Fiala

Η παλιά, καλή συμβουλή: τα δεδομένα ασφαλείας

Η Fiala παρουσίασε τεχνολογία που αναπτύχθηκε από κοινού με ερευνητές που μπορούν να βελτιώσουν την αξιοπιστία. Η τεχνολογία αντιμετωπίζει το πρόβλημα της καταστροφής σιωπηρών δεδομένων, όταν τα συστήματα κάνουν ανιχνεύσιμα σφάλματα στην εγγραφή δεδομένων στο δίσκο.

Βασικά, η προσέγγιση των ερευνητών συνίσταται στην εκτέλεση πολλαπλών αντιγράφων ή "κλώνων" ενός προγράμματος ταυτόχρονα και στη συνέχεια στη σύγκριση των απαντήσεων. Το λογισμικό, το οποίο ονομάζεται RedMPI, εκτελείται σε συνδυασμό με τη διεπαφή μετάδοσης μηνυμάτων (MPI), μια βιβλιοθήκη για τη διάσπαση εφαρμογών που εκτελούνται σε πολλούς διακομιστές, ώστε τα διαφορετικά μέρη του προγράμματος να μπορούν να εκτελούνται παράλληλα.

Το RedMPI παρακολουθεί και αντιγράφει κάθε MPI μήνυμα που στέλνει μια εφαρμογή και αποστέλλει αντίγραφα του μηνύματος στον κλώνο (ή κλώνους) του προγράμματος. Αν οι διαφορετικοί κλώνοι υπολογίζουν διαφορετικές απαντήσεις, τότε οι αριθμοί μπορούν να υπολογιστούν εκ νέου, πράγμα που θα εξοικονομήσει χρόνο και πόρους από την εκτέλεση ολόκληρου του προγράμματος ξανά

"Η υλοποίηση του πλεονασμού δεν είναι δαπανηρή Μπορεί να είναι υψηλή στον αριθμό των μετρήσεων πυρήνα που χρειάζονται, αλλά αποφεύγει την ανάγκη επανεγγραφής με επανεκκίνηση του σημείου ελέγχου ", δήλωσε ο Fiala. "Η εναλλακτική λύση είναι, φυσικά, απλά να επαναλάβετε τις εργασίες μέχρι να φανταστεί κανείς ότι έχετε τη σωστή απάντηση."

Η Fiala συνέστησε την εκτέλεση δύο αντιγράφων ασφαλείας για κάθε πρόγραμμα, για τριπλή απόλυση. Αν και η εκτέλεση πολλαπλών αντιγράφων ενός προγράμματος θα είχε αρχικά περισσότερους πόρους, με την πάροδο του χρόνου θα μπορούσε να είναι αποτελεσματικότερος, λόγω του γεγονότος ότι δεν θα χρειαστεί να επαναληφθούν τα προγράμματα για να ελέγξετε τις απαντήσεις. Επίσης, ο έλεγχος σημείων μπορεί να μην είναι απαραίτητος όταν εκτελούνται πολλαπλά αντίγραφα, τα οποία επίσης θα εξοικονομούν πόρους συστήματος

Ο Miller

«Νομίζω ότι η ιδέα της δημιουργίας πλεονασμού είναι στην πραγματικότητα μια μεγάλη ιδέα. Για πολύ μεγάλους υπολογισμούς που περιλαμβάνουν εκατοντάδες χιλιάδες κόμβους, υπάρχει σίγουρα μια πιθανότητα να εισέλθουν σφάλματα» δήλωσε ο Ethan Miller, καθηγητής ηλεκτρονικών υπολογιστών στο Πανεπιστήμιο της Καλιφόρνιας Santa Cruz, ο οποίος παρακολούθησε την παρουσίαση. Αλλά δήλωσε ότι η προσέγγιση μπορεί να μην είναι κατάλληλη δεδομένης της ποσότητας της κίνησης δικτύου που μπορεί να δημιουργήσει μια τέτοια πλεονασμού. Προτάθηκε να τρέξει όλες τις εφαρμογές στο ίδιο σύνολο κόμβων, οι οποίες θα μπορούσαν να ελαχιστοποιήσουν την εσωτερική κίνηση.

Σε άλλη παρουσίαση, η Ana Gainaru, φοιτητής Ph.D από το Πανεπιστήμιο του Illinois στην Urbana-Champaign, παρουσίασε μια τεχνική ανάλυσης log αρχεία για την πρόβλεψη πότε θα εμφανιστούν αποτυχίες του συστήματος.

Η εργασία συνδυάζει ανάλυση σήματος με εξόρυξη δεδομένων. Η ανάλυση σήματος χρησιμοποιείται για τον χαρακτηρισμό της κανονικής συμπεριφοράς, οπότε σε περίπτωση αποτυχίας μπορεί να εντοπιστεί εύκολα. Η εξόρυξη δεδομένων αναζητά συσχετισμούς μεταξύ χωριστών αναφερθέντων βλαβών. Άλλοι ερευνητές έχουν δείξει ότι πολλές αποτυχίες μερικές φορές συσχετίζονται μεταξύ τους, επειδή μια αποτυχία με μία τεχνολογία μπορεί να επηρεάσει την απόδοση σε άλλους, σύμφωνα με τον Gainaru. Για παράδειγμα, όταν μια κάρτα δικτύου αποτύχει, σύντομα θα συγκαλύψει άλλες διαδικασίες του συστήματος που βασίζονται στην επικοινωνία μέσω δικτύου.

Οι ερευνητές διαπίστωσαν ότι το 70% των συσχετισμένων βλαβών παρέχει ένα παράθυρο ευκαιρίας για περισσότερο από 10 δευτερόλεπτα. Με άλλα λόγια, όταν εντοπίστηκε το πρώτο σημάδι μιας βλάβης, το σύστημα μπορεί να έχει έως και 10 δευτερόλεπτα για να αποθηκεύσει τη δουλειά του ή να μετακινήσει την εργασία σε άλλο κόμβο, πριν εμφανιστεί μια πιο κρίσιμη αποτυχία. "Η πρόβλεψη αποτυχίας μπορεί να συγχωνευτεί με άλλες τεχνικές αντοχής σφάλματος", δήλωσε ο Gainaru.

Ο Joab Jackson καλύπτει το λογισμικό των επιχειρήσεων και τις γενικές τεχνολογικές εξελίξεις για την

Υπηρεσία ειδήσεων IDG. Ακολουθήστε τον Joab στο Twitter στο @Joab_Jackson. Η διεύθυνση ηλεκτρονικού ταχυδρομείου του Joab είναι [email protected]

Οι ασιατικές αποστολές PC πέφτουν για πρώτη φορά στη δεκαετία, η IDC λέει ότι οι ασιατικές αποστολές PC πέφτουν για πρώτη φορά σε μια δεκαετία, λέει η IDC .

Οι ασιατικές μεταφορές PC μειώθηκαν κατά 5% κατά το τέταρτο τρίμηνο του 2008 σε σύγκριση με την ίδια περίοδο πριν από ένα χρόνο, σημειώνοντας για πρώτη φορά σε μια δεκαετία η περιοχή, γνωστή για την ανάπτυξη, δήλωσε τη Δευτέρα

"Αυτό είναι σίγουρα πιο μοντέρνο, νομίζω ότι το 2009 φτάνει να είναι λίγο πιο Bling, λίγο περισσότερη εμπιστοσύνη. , ξεκινώντας από τις οθόνες, οι οποίες είναι πολύ μεγαλύτερες, πιο εντυπωσιακές και πιο αντιληπτικές στις εντολές αφής.

Το εσωτερικό λογισμικό - μια εξατομικευμένη έκδοση του Windows Mobile 6.1 της Microsoft με μια νέα έκδοση του TouchFLO 3D της HTC - έχει επίσης δει σημαντικές βελτιώσεις

Μια δοκιμή USB 3.0 και εγκατάσταση ανάπτυξης από την Texas Instruments. Το SuperSpeed USB (όπως ονομάζεται USB 3.0) υποστηρίζει μέγιστο ρυθμό δεδομένων 4,8 gigabits ανά δευτερόλεπτο, σε σύγκριση με τα 480 megabit ανά δευτερόλεπτο για Hi-Speed USB (USB 2.0). Αυτό ισοδυναμεί με ένα θεωρητικό μέγιστο των 600 megabyte ανά δευτερόλεπτο - είναι πιο γρήγορο από ό, τι οι περισσότεροι σκληροί δίσκοι και έρχεται εγκαίρως για ένα κύμα νεώτερων και ταχύτερων μονάδων SSD. Για να σας δώσω μια ιδέα για το

Το USB 3.0 επιτυγχάνει αυτές τις ταχύτητες με μια νέα μορφή καλωδίου και καλωδίου, αλλά όλα είναι συμβατά προς τα πίσω USB 2.0 και USB 1.1. Συνδέστε την παλιά συσκευή σας και θα συνεχίσει να λειτουργεί (με την παλαιότερη ταχύτητα). Συνδέστε μια συσκευή USB 3.0 σε θύρα USB 2.0 και θα τρέχει με πιο αργή ταχύτητα

Οι πιο ισχυροί υπερυπολογιστές πέφτουν πιο σκληροί, ο ερευνητής προτείνει

Shyam Sankar: The rise of human-computer cooperation

Πίνακας περιεχομένων:

Οι ασιατικές αποστολές PC πέφτουν για πρώτη φορά στη δεκαετία, η IDC λέει ότι οι ασιατικές αποστολές PC πέφτουν για πρώτη φορά σε μια δεκαετία, λέει η IDC .

Ενδιαφέροντα άρθρα

Καλύτερα Εργαλεία Προγραμματισμού για Παιδιά Φροντιστήρια

3 Καλύτερα Εργαλεία USB Image Writer με δυνατότητα GUI στο Linux

10 καλύτερες χρήσιμες προσθήκες Gutenberg Blocks για WordPress

3 Περισσότερες εναλλακτικές λύσεις VoIP για το Skype

Academix GNU/Linux

Εργαλεία για πρόσβαση στο σύστημα αρχείων Linux από τα Windows

Καλύτερα Εργαλεία Προγραμματισμού για Παιδιά Φροντιστήρια

3 Καλύτερα Εργαλεία USB Image Writer με δυνατότητα GUI στο Linux

10 καλύτερες χρήσιμες προσθήκες Gutenberg Blocks για WordPress

Καλύτερα Εργαλεία Προγραμματισμού για Παιδιά Φροντιστήρια

3 Καλύτερα Εργαλεία USB Image Writer με δυνατότητα GUI στο Linux

10 καλύτερες χρήσιμες προσθήκες Gutenberg Blocks για WordPress

Οι πιο ισχυροί υπερυπολογιστές πέφτουν πιο σκληροί, ο ερευνητής προτείνει

Shyam Sankar: The rise of human-computer cooperation

Πίνακας περιεχομένων:

Συνιστάται

Ενδιαφέροντα άρθρα