Χρήσιμες Συμβουλές

Δίκτυα για υπερυπολογιστές

Pin
Send
Share
Send
Send


Η κατανεμημένη πληροφορική είναι ένας τρόπος να συμβάλλετε σε μερικά ενδιαφέροντα έργα. Όταν ο υπολογιστής σας είναι αδρανής, μοιραστείτε τη δύναμή του με το έργο SETI, το οποίο αναζητά εξωγήινους πολιτισμούς. Σε αυτή την περίπτωση, ο υπολογιστής σας θα αναλύσει δορυφορικά δεδομένα και πληροφορίες που λήφθηκαν από τα τηλεσκόπια.

Αυτό το άρθρο θα σας βοηθήσει να συμμετάσχετε σε έργα (όπως το SETI) που περιλαμβάνουν κατανεμημένα computing. Το άρθρο σας εισάγει επίσης στο BOINC, ένα λογισμικό κατανεμημένων υπολογιστών.

Χρειάζεστε έναν υπολογιστή. Αν έχετε ήδη ένα, μεταβείτε στην ενότητα Πηγές και συνδέσεις και εγκαταστήστε το λογισμικό BOINC. Αν δεν ενδιαφέρεστε για το πρόγραμμα SETI, παρακάτω θα βρείτε μια λίστα με άλλα έργα.

Αν πολλά χρήματα

Ξεχωριστά, σημειώνουμε την εξαιρετικά ακριβή αλλά παραγωγική σειρά επεξεργαστών στην πρίζα Intel Xeon LGA1567.
Ο κορυφαίος επεξεργαστής αυτής της σειράς είναι ο E7-8870 με δέκα πυρήνες 2,4 GHz. Η τιμή του είναι $ 4616. Για τέτοιες CPU, τα HP και Supermicro απελευθερώνονται! οκτώ επεξεργαστής! σασί διακομιστή. Οκτώ επεξεργαστές Xeon E7-8870 των 10 πυρήνων 2,4 GHz με υποστήριξη HyperThreading 8 * 10 * 2 = 160 κλωστές, που εμφανίζεται στο Task Manager των Windows ως εκατόν εξήντα γραφικές παραστάσεις φόρτωσης επεξεργαστή, μήτρα 10x16.

Για να χωρέσουν οκτώ επεξεργαστές στην περίπτωση, δεν τοποθετούνται αμέσως στη μητρική πλακέτα, αλλά σε χωριστές κάρτες που κολλάνε στη μητρική πλακέτα. Η φωτογραφία δείχνει τέσσερις μητρικές με επεξεργαστές εγκατεστημένες στη μητρική πλακέτα (δύο σε κάθε). Αυτή είναι μια λύση Supermicro. Στη λύση HP, κάθε επεξεργαστής έχει δικό του πίνακα. Το κόστος μιας λύσης HP είναι δύο έως τρία εκατομμύρια, ανάλογα με τον αριθμό των επεξεργαστών, τη μνήμη και πολλά άλλα. Το πλαίσιο Supermicro κοστίζει $ 10.000, το οποίο είναι πιο ελκυστικό. Επιπλέον, η Supermicro μπορεί να βάλει τέσσερις κάρτες επέκτασης coprocessor στις θύρες PCI-Express x16 (παρεμπιπτόντως, θα υπάρχει ακόμα χώρος για προσαρμογέα Infiniband για να συναρμολογηθεί ένα σύμπλεγμα αυτών), αλλά μόνο δύο στην HP. Έτσι, για να δημιουργηθεί ένας υπερυπολογιστής, μια πλατφόρμα οκτώ επεξεργαστών από το Supermicro είναι πιο ελκυστική. Η ακόλουθη φωτογραφία από την έκθεση παρουσιάζει τον πλήρη υπερυπολογιστή με τέσσερις κάρτες GPU.

Ωστόσο, είναι πολύ ακριβό.

Δίκτυα επικοινωνίας

Η αποτελεσματικότητα ενός υπερυπολογιστή σε πολλές εφαρμογές καθορίζεται σε μεγάλο βαθμό από το προφίλ της εργασίας με τη μνήμη και το δίκτυο. Το προφίλ της εργασίας με τη μνήμη συνήθως περιγράφεται από τον χωροχρονικό εντοπισμό κλήσεων - από το μέγεθος των κλήσεων και τη διασπορά των διευθύνσεών τους και το προφίλ της εργασίας με το δίκτυο περιγράφεται από τη διανομή των κόμβων με τους οποίους ανταλλάσσονται μηνύματα, τη συναλλαγματική ισοτιμία και τα μεγέθη μηνυμάτων.

Η απόδοση ενός υπερυπολογιστή σε εργασίες με εντατική ανταλλαγή δεδομένων μεταξύ κόμβων (προβλήματα μοντελοποίησης, προβλήματα σε γραφήματα και ακανόνιστα πλέγματα, υπολογισμοί με χρήση αραιών πινάκων) καθορίζεται κυρίως από την απόδοση του δικτύου, επομένως η χρήση συμβατικών εμπορικών λύσεων (για παράδειγμα, Gigabit Ethernet) είναι εξαιρετικά αναποτελεσματική. Ωστόσο, ένα πραγματικό δίκτυο είναι πάντα μια συμβιβαστική λύση, στην ανάπτυξη των οποίων τίθενται προτεραιότητες μεταξύ τιμής, απόδοσης, κατανάλωσης ενέργειας και άλλων απαιτήσεων που είναι σε μεγάλο βαθμό αντιφατικές: οι προσπάθειες βελτίωσης ενός χαρακτηριστικού μπορούν να οδηγήσουν σε επιδείνωση του άλλου.

Ένα δίκτυο επικοινωνίας αποτελείται από κόμβους, ο καθένας από τους οποίους έχει έναν προσαρμογέα δικτύου συνδεδεμένο σε έναν ή περισσότερους δρομολογητές, οι οποίοι με τη σειρά τους διασυνδέονται με κανάλια επικοινωνίας υψηλής ταχύτητας (συνδέσεις).

Το Σχ. 1. Τοπολογία 4D-torus (3x3x3x3)

Η δομή του δικτύου, η οποία καθορίζει τον τρόπο διασύνδεσης των κόμβων του συστήματος, καθορίζεται από την τοπολογία του δικτύου (συνήθως ένα πλέγμα, ένα τόξο ή ένα παχύ δέντρο) και ένα σύνολο δομικών παραμέτρων: ο αριθμός των μετρήσεων, ο αριθμός των δέντρων, οι διαστάσεις των πλευρών του κορμού, ο αριθμός των διακοπτών στα επίπεδα των δέντρων, λιμάνια σε δρομολογητές κ.λπ. Το σχήμα 1 δείχνει ένα παράδειγμα της τοπολογίας ενός τετραδιάστατου θώρακα 3x3x3x3.

Η αρχιτεκτονική του δρομολογητή καθορίζει τη δομή και τη λειτουργικότητα των μονάδων που είναι υπεύθυνες για τη μεταφορά δεδομένων μεταξύ κόμβων δικτύου καθώς και τις απαραίτητες ιδιότητες των πρωτοκόλλων των καναλιών, του δικτύου και των επιπέδων μεταφοράς, συμπεριλαμβανομένων αλγορίθμων δρομολόγησης, διαιτησίας και ελέγχου ροής δεδομένων. Η αρχιτεκτονική του προσαρμογέα δικτύου καθορίζει τη δομή και τη λειτουργικότητα των μονάδων που είναι υπεύθυνες για την αλληλεπίδραση μεταξύ του επεξεργαστή, της μνήμης και του δικτύου, και συγκεκριμένα υποστηρίζονται οι λειτουργίες MPI σε αυτό το επίπεδο, η RDMA (άμεση πρόσβαση σε μνήμη άμεσης πρόσβασης στη μνήμη άλλου κόμβου χωρίς τη συμμετοχή του επεξεργαστή) επιβεβαιώσεις παραλαβής από άλλο κόμβο του πακέτου, αντιμετώπιση εξαιρετικών καταστάσεων, συνάθροιση πακέτων.

Για να αξιολογηθεί η απόδοση ενός δικτύου επικοινωνίας, χρησιμοποιούνται συχνότερα τρία χαρακτηριστικά: εύρος ζώνης (ποσότητα δεδομένων που μεταδίδονται ανά μονάδα χρόνου), καθυστέρηση επικοινωνίας (χρόνος μεταφοράς δεδομένων μέσω του δικτύου), το ρυθμό του μηνύματος (συνήθως, εξετάζουν χωριστά το ρυθμό παράδοσης κατά την αποστολή, λήψη και μετάδοση πακέτων μεταξύ των εσωτερικών μονάδων του δρομολογητή).

Για λόγους πληρότητας, τα χαρακτηριστικά αυτά μετρώνται σε διαφορετικούς τύπους επισκεψιμότητας, για παράδειγμα, όταν ένας κόμβος αποστέλλει δεδομένα σε όλα τα άλλα ή, αντίθετα, όλοι οι κόμβοι στέλνουν δεδομένα σε ένα ή όταν όλοι οι κόμβοι στέλνουν δεδομένα σε τυχαίους προορισμούς. Οι απαιτήσεις λειτουργικότητας επιβάλλονται στα σύγχρονα δίκτυα:

  • την αποτελεσματική υλοποίηση της βιβλιοθήκης Shmem, ως επιλογή υποστήριξης του μονοκατευθυντικού μοντέλου επικοινωνίας και του GASNet, στο οποίο βασίζεται η εφαρμογή πολλών γλωσσών PGAS,
  • αποτελεσματική εφαρμογή του MPI (συνήθως αυτό απαιτεί αποτελεσματική υποστήριξη του μηχανισμού των buffer buffers και των αναγνωριστικών για τα ληφθέντα πακέτα),
  • αποτελεσματική υποστήριξη για συλλογικές λειτουργίες: μετάδοση (αποστολή των ίδιων δεδομένων ταυτόχρονα σε πολλούς κόμβους), μείωση (εφαρμογή δυαδικής λειτουργίας, για παράδειγμα προσθήκη στο σύνολο τιμών που λαμβάνεται από διαφορετικούς κόμβους), διανομή στοιχείων συστοιχίας πάνω από το σύνολο κόμβων (scatter), συναρμολόγηση συστοιχίας στοιχείων, που βρίσκονται σε διαφορετικούς κόμβους (συλλέγουν),
  • αποτελεσματική υποστήριξη για λειτουργίες συγχρονισμού μεταξύ κόμβων (τουλάχιστον συγχρονισμό φραγής), αποτελεσματική αλληλεπίδραση με ένα δίκτυο μεγάλου αριθμού διεργασιών σε έναν κόμβο και εξασφάλιση αξιόπιστης παράδοσης πακέτων.

Η αποτελεσματική υποστήριξη της εργασίας του προσαρμογέα με τη μνήμη του κεντρικού υπολογιστή χωρίς την εμπλοκή του επεξεργαστή είναι επίσης σημαντική.

Εξωτερικά δίκτυα υψηλής ταχύτητας

Όλα τα δίκτυα επικοινωνίας μπορούν να χωριστούν σε δύο κατηγορίες: εμπορικά και προσαρμοσμένα, αναπτυγμένα ως μέρος των συστημάτων υπολογιστών και διαθέσιμα μόνο μαζί τους. Μεταξύ των εμπορικών δικτύων, η αγορά διαιρείται μεταξύ του InfiniBand και του Ethernet - στη λίστα Top500 (Ιούνιος 2011), το 42% των συστημάτων χρησιμοποιούν το InfiniBand και το 45% χρησιμοποιούν το Gigabit Ethernet. Ταυτόχρονα, εάν το InfiniBand επικεντρώνεται στο τμήμα των συστημάτων υψηλής απόδοσης που έχουν σχεδιαστεί για σύνθετα καθήκοντα υπολογιστών με μεγάλο αριθμό επικοινωνιών, τότε το Ethernet καταλαμβάνει παραδοσιακά μια θέση όπου η ανταλλαγή δεδομένων μεταξύ των κόμβων δεν είναι κρίσιμη. Στους υπερυπολογιστές, το δίκτυο Ethernet, λόγω του χαμηλού κόστους και της διαθεσιμότητάς του, χρησιμοποιείται συχνά ως βοηθητικό δίκτυο υπηρεσιών προκειμένου να μειωθεί η παρεμβολή της κυκλοφορίας ελέγχου και της κυκλοφορίας εργασιών.

Το δίκτυο Inifiniband επικεντρωνόταν αρχικά σε διαμορφώσεις με την τοπολογία των δέντρων Fat, αλλά οι τελευταίες εκδόσεις των διακοπτών και των δρομολογητών (που κατασκευάζονται κυρίως από την QLogic) υποστηρίζουν την πολυδιάστατη τοπολογία του torus (χρησιμοποιώντας την μηχανή δρομολόγησης Torus-2QoS) καθώς και μια υβριδική τοπολογία από το 3D torus και το λίπος. Ο υπερυπολογιστής Sandia RedSky, συναρμολογημένος στις αρχές του 2010 και τώρα στην 16η θέση στο Top500, είναι ένα από τα πρώτα έργα μεγάλης κλίμακας με το δίκτυο InfiniBand και το τοπολογία 3D Torus (6x6x8). Επίσης, αποδίδεται μεγάλη προσοχή στην αποτελεσματική υποστήριξη των λειτουργιών RDMA και της βιβλιοθήκης Shmem (ειδικότερα της Qlogic Shmem).

Η δημοτικότητα του InfiniBand οφείλεται στο σχετικά χαμηλό κόστος του, στο αναπτυγμένο οικοσύστημα του λογισμικού και στην αποτελεσματική υποστήριξη του MPI. Εντούτοις, το InfiniBand έχει τα μειονεκτήματά του: χαμηλό ποσοστό παράδοσης μηνυμάτων (40 εκατομμύρια μηνύματα ανά δευτερόλεπτο στις τελευταίες λύσεις από το Mellanox), χαμηλή απόδοση μετάδοσης σύντομων πακέτων, σχετικά μεγάλη καθυστέρηση (περισσότερο από 1.5 μs για κόμβους μεταδόσεων προς κόμβο και επιπλέον 0.1- 0,5 μs ανά κόμβο διέλευσης), ασθενή υποστήριξη για τη τοροειδή τοπολογία. Σε γενικές γραμμές, μπορεί να υποστηριχθεί ότι το InfiniBand είναι προϊόν για το μαζικό χρήστη και κατά τη διάρκεια της ανάπτυξής του έγινε ένας συμβιβασμός μεταξύ αποτελεσματικότητας και ευελιξίας.

Μπορούμε επίσης να σημειώσουμε το δίκτυο Extoll, το οποίο ετοιμάζεται για την κυκλοφορία στην αγορά - την ανάπτυξη του Πανεπιστημίου της Χαϊδελβέργης υπό την ηγεσία του καθηγητή Ulrich Bruening. Η κύρια έμφαση στην ανάπτυξη αυτού του δικτύου είναι να ελαχιστοποιηθούν οι καθυστερήσεις και να αυξηθεί ο ρυθμός παράδοσης σε αμφίδρομες επικοινωνίες. Προβλέπεται ότι η Extoll θα έχει μια τοπολογία 3D στρέψης και θα χρησιμοποιεί οπτικούς συνδέσμους με εύρος ζώνης 10 Gb / s ανά λωρίδα (κανάλι μετάδοσης σειριακών δεδομένων εντός του συνδέσμου) και πλάτος 12 λωρίδων ανά σύνδεσμο. Τώρα υπάρχουν πρωτότυπα του δικτύου Extoll σε FPGA: R1 - βασισμένο στο Virtex4, R2 Ventoux - διάταξη δύο κόμβων βασισμένη στο Virtex6. Το εύρος ζώνης μίας διαδρομής ανά σύνδεση είναι 600 MB / s (για το R1). Δύο διεπαφές (HyperTransport 3.0 και PCI Express gen3) με έναν επεξεργαστή θα υποστηριχθούν, γεγονός που θα επιτρέψει την ενσωμάτωση αυτού του δικτύου στις πλατφόρμες Intel και AMD. Το Extoll υποστηρίζει διάφορους τρόπους οργάνωσης εγγραφών μίας κατεύθυνσης, του δικού του MMU (μονάδα διαχείρισης μνήμης, μπλοκ μετάφρασης εικονικών διευθύνσεων σε φυσικές διευθύνσεις) και ατομικών λειτουργιών.

Σε αντίθεση με τα εμπορικά δίκτυα, τα προσαρμοσμένα δίκτυα καταλαμβάνουν πολύ μικρότερο μερίδιο αγοράς, ωστόσο χρησιμοποιούνται στους πιο ισχυρούς υπερυπολογιστές από Cray, IBM, SGI, Fujitsu, NEC και Bull. Κατά το σχεδιασμό προσαρμοσμένων δικτύων, οι προγραμματιστές έχουν περισσότερη ελευθερία και προσπαθούν να χρησιμοποιήσουν πιο προοδευτικές προσεγγίσεις λόγω της μικρότερης σημασίας της ελκυστικότητας του τελικού προϊόντος στην αγορά, επιλύοντας πρωτίστως το πρόβλημα της απόδοσης μέγιστης απόδοσης σε μια συγκεκριμένη κατηγορία εργασιών.

Ο υπολογιστής υπερυπολογιστής K χρησιμοποιεί ένα ιδιόκτητο δίκτυο επικοινωνίας Tofu (TOrus FUsion), το οποίο είναι ένας κλιμακωτός τρισδιάστατος θόρυβος του οποίου οι κόμβοι περιέχουν ομάδες 12 κόμβων (ομάδες κόμβων συνδέονται από 12 δίκτυα με τρισδιάστατο τόξο και κάθε κόμβος από αυτή την ομάδα έχει δική του έξοδο Δίκτυο τρισδιάστατου ρολογιού). Οι κόμβοι σε κάθε ομάδα αλληλοσυνδέονται με ένα τρισδιάστατο στροφέα με πλευρές 2x3x4 χωρίς διπλούς συνδέσμους, που ισοδυναμεί με 2D torus με πλευρές 3x4 (έτσι έχουμε ένα 5D torus με σταθερές δύο διαστάσεις). Έτσι, ο κόμβος δικτύου Tofu έχει 10 συνδέσεις με μονόδρομη διέλευση 40 Gb / s η κάθε μία. Ο συγχρονισμός φραγμού των κόμβων και η μείωση (ακέραιος και κινητός) υποστηρίζονται στο υλικό.

Οι κύριοι στόχοι στην ανάπτυξη του υπερυπολογιστή Tianhe-1A ήταν να επιτύχουν υψηλή ενεργειακή απόδοση, να αναπτύξουν το δικό τους επεξεργαστή και δίκτυο ανώτερο από το InfiniBand QDR. Ο υπερυπολογιστής αποτελείται από 7168 κόμβους υπολογιστών που συνδέονται με το δικό του σχέδιο Arch με την παχιά τοπολογία δέντρων. Το δίκτυο είναι χτισμένο από δρομολογητές 16 θυρών, εύρος ζώνης μίας διασύνδεσης - 8 GB / s, καθυστέρηση - 1,57 μs. Οι λειτουργίες RDMA υποστηρίζονται και οι συλλογικές λειτουργίες βελτιστοποιούνται.

Οι κλασσικοί εκπρόσωποι των συστημάτων που χρησιμοποιούν μια τοροειδή τοπολογία για να συνδυάσουν τους υπολογιστικούς κόμβους είναι συστήματα για τη σειρά IBM Blue Gene, στις δύο πρώτες γενιές της οποίας οι Blue Gene / L (2004) και Blue Gene / P (2007) χρησιμοποίησαν την τοπολογία 3D torus. Το δίκτυο στο Blue Gene / P έχει σχετικά αδύναμους δεσμούς με ένα εύρος ζώνης μονής όψης των 0.425 GB / s, το οποίο είναι κατά τάξη μεγέθους μικρότερο από το εύρος ζώνης του σύγχρονου συνδέσμου QDR του InfiniBand. Ωστόσο, η υποστήριξη μέσω του hardware για συγχρονισμό φραγμών και συλλογικές λειτουργίες (σε ξεχωριστά δίκτυα δέντρων) πραγματικές εφαρμογές. Επιπλέον, όλες οι διεπαφές και οι μονάδες δρομολόγησης είναι ενσωματωμένες στον μικροεπεξεργαστή BPC (Blue Gene / P Chip), ο οποίος μειώνει σημαντικά τις καθυστερήσεις μετάδοσης μηνυμάτων. Το δίκτυο επικοινωνίας επόμενης γενιάς Blue Gene / Q έχει μια τοπολογία 5D-tor και σε αντίθεση με τους προηγούμενους, δεν διαθέτει ξεχωριστά δίκτυα για συγχρονισμό φραγμών και συλλογικές λειτουργίες. Το τσιπ Blue Gene / Q για πρώτη φορά έγινε multi-core-multi-thread - τέσσερις κλωστές υλικού ανά πυρήνα με 16 πυρήνες, γεγονός που επιτρέπει την αποδυνάμωση των απαιτήσεων του δικτύου και την εξασφάλιση της ανοχής καθυστέρησης. Η απόδοση του συνδέσμου έχει αυξηθεί στα 2 GB / s, αλλά παραμένει μικρή σε σύγκριση με το Cray Gemini ή το Extoll. Η χαμηλή διακίνηση σε αυτά τα συστήματα ισορροπείται από τη μεγάλη διάσταση του καρουλιού (μεγάλος αριθμός συνδέσμων) και ως εκ τούτου από τη μικρή διάμετρο του δικτύου (σημαντικά μικρότερη από αυτή των δικτύων με τοπολογία τρισδιάστατου καρουλιού με τον ίδιο αριθμό κόμβων). Οι διαθέσιμες πηγές αναφέρουν τη δημιουργία δύο υπερυπολογιστών Blue Gene / Q transpetaflops: Sequoia με απόδοση 20 PFLOPS και Mira - 10 PFLOPS. Μπορούμε να συμπεράνουμε ότι το Blue Gene / Q επικεντρώνεται σε εργασίες που θα χρησιμοποιούν δεκάδες και εκατοντάδες χιλιάδες κόμβους υπολογιστών με κίνηση στο δίκτυο του τύπου "all-to-all".

Ένας άλλος υποστηρικτής της προσέγγισης για την οικοδόμηση δικτύων επικοινωνίας με τοροειδείς τοπολογίες είναι ο Cray, ο οποίος συνεχίζει να χρησιμοποιεί την τοπολογία 3D tor ενώ παράλληλα αυξάνει τη διακίνηση και τον αριθμό συνδέσμων που συνδέουν γειτονικούς κόμβους. Η σημερινή γενιά του τομοειδούς δικτύου Cray είναι το δίκτυο Cray Gemini. Ένας δρομολογητής Gemini αντιστοιχεί σε δύο δρομολογητές της προηγούμενης γενιάς SeaStar2 +, δηλαδή σε δύο κόμβους δικτύου, επομένως σε Gemini αντί για 6 συνδέσεις 10 χρησιμοποιούνται για τη σύνδεση με γειτονικούς κόμβους (2 εξυπηρετούν να συνδέσουν δύο προσαρμογείς μεταξύ τους).

Τα στοιχεία (προσαρμογείς δικτύου, διακόπτες, δρομολογητές) ενός δικτύου για έναν υπερυπολογιστή, σε αντίθεση με τους επεξεργαστές, είναι συχνά πιο ακριβά και η πρόσβαση σε αυτά είναι πιο περιορισμένη. Για παράδειγμα, τώρα οι διακόπτες για το δίκτυο InfiniBand, το οποίο είναι το κύριο εμπορικό δίκτυο για τους υπερυπολογιστές, παράγονται μόνο από δύο εταιρείες, οι οποίες ελέγχονται αμφότερες από τις Ηνωμένες Πολιτείες. Αυτό σημαίνει ότι, ελλείψει των δικών τους εξελίξεων στον τομέα των δικτύων υψηλής ταχύτητας, η δημιουργία σύγχρονων υπερυπολογιστών σε οποιαδήποτε χώρα εκτός των ΗΠΑ, της Κίνας ή της Ιαπωνίας μπορεί να ελεγχθεί εύκολα.

Οικιακά δίκτυα

Η ανάπτυξη δικτύων επικοινωνίας για χρήση σε υπερυπολογιστές διεξάγεται από αρκετούς εθνικούς οργανισμούς: το RFNC VNIIEF (πολύ λίγα στοιχεία σχετικά με αυτές τις εξελίξεις σε ανοιχτές πηγές), το Ινστιτούτο Λογισμικού της Ρωσικής Ακαδημίας Επιστημών και το RSK SKIF, το IPM RAS και το Ινστιτούτο Ερευνών Kvant ").

Το δίκτυο επικοινωνίας 3D tor για τον ρωσικο-ιταλικό υπερυπολογιστή SKIF-Aurora είναι πλήρως κατασκευασμένο χρησιμοποιώντας το Altera Stratix IV FPGA, το οποίο εξηγεί το μάλλον μικρό εύρος ζώνης ανά σύνδεσμο - 1,25 GB / s (οι πόροι FPGA είναι πολύ περιορισμένοι).

Στο δίκτυο MVS-Express, το PCI Express 2.0 χρησιμοποιείται για την ενσωμάτωση των κόμβων υπολογιστών και οι κόμβοι συνδέονται μέσω διακοπτών 24 θυρών. Το δίκτυο έχει μια τοπολογία κοντά στο δέντρο λίπους. Ο προσαρμογέας δικτύου στον κόμβο υπολογισμού έχει μία θύρα πλάτους 4 λωρίδων, με αποτέλεσμα η μέγιστη απόδοση ανά κανάλι να είναι 20 Gbit / s χωρίς να λαμβάνεται υπόψη η γενική κρυπτογράφηση. Το πλεονέκτημα της χρήσης του PCI Express στο MVS-Express είναι η αποτελεσματική υποστήριξη της κοινόχρηστης μνήμης με δυνατότητα επικοινωνίας μονής κατεύθυνσης. Ως αποτέλεσμα, το δίκτυο είναι βολικό για την υλοποίηση της βιβλιοθήκης Shmem και των γλωσσών PGAS (UPC, CAF).

Με την υποστήριξη του Υπουργείου Βιομηχανίας και Εμπορίου της Ρωσικής Ομοσπονδίας, η NICEVT OJSC εργάζεται για την ανάπτυξη του δικτύου επικοινωνίας Angara με μια τοπολογία 4D-tor, η οποία μπορεί να αποτελέσει τη βάση για τη δημιουργία εγχώριων τεχνολογιών για την ανάπτυξη υπερυπολογιστών.

Δίκτυο "Angara"

Οι βασικοί στόχοι της ανάπτυξης του δικτύου Angara:

  • αποτελεσματική υποστήριξη για επικοινωνίες μονής κατεύθυνσης (γλώσσες PGAS) και γλώσσες PGAS (ως κύριο μέσο παράλληλου προγραμματισμού),
  • Αποτελεσματική υποστήριξη MPI
  • απελευθέρωση κρυστάλλου (για την επίτευξη υψηλών ρυθμών μετάδοσης δεδομένων και χαμηλών καθυστερήσεων),
  • προσαρμοστική μετάδοση πακέτων για ασφαλή αποτυχία,
  • αποτελεσματική εργασία με σύγχρονους επεξεργαστές και chipsets.

Κατά το πρώτο στάδιο ανάπτυξης αυτού του δικτύου (2006), πραγματοποιήθηκε προσομοίωση διαφόρων επιλογών δικτύου και λήφθηκαν οι κύριες αποφάσεις σχετικά με την τοπολογία, την αρχιτεκτονική δρομολογητών, τους αλγορίθμους δρομολόγησης και τη διαιτησία. Εκτός από την τοροειδή τοπολογία, εξετάστηκαν τα δίκτυα Cayley και το "παχύ δέντρο". Ο τετραδιάστατος τύπος επιλέχθηκε λόγω της απλούστερης δρομολόγησης, της καλής επεκτασιμότητάς του και της υψηλής συνδεσιμότητάς του σε σύγκριση με τα μικρότερα tori. Η μοντελοποίηση δικτύου επέτρεψε να μελετηθεί λεπτομερώς η επίδραση διαφόρων παραμέτρων της αρχιτεκτονικής του δικτύου στα κύρια χαρακτηριστικά απόδοσης, ώστε να κατανοηθούν τα πρότυπα για την κυκλοφορία των εργασιών με εντατική ακανόνιστη πρόσβαση στη μνήμη. Ως αποτέλεσμα, επιλέχθηκαν τα βέλτιστα μεγέθη buffer, ο αριθμός των εικονικών καναλιών και αναλύθηκαν πιθανά σημεία συμφόρησης.

Το 2008 παρουσιάστηκε το πρώτο πρωτότυπο ενός δρομολογητή FPGA - μια διάταξη δικτύου έξι κόμβων σε Virtex4 που συνδέονται με έναν torus 2x3, στον οποίο εκτελείται σάρωση της βασικής λειτουργικότητας του δρομολογητή, εκτελείται η μετάδοση δεδομένων ανεκτικών σε σφάλματα, γράφονται και αποσφαλούνται οι οδηγοί και οι χαμηλού επιπέδου βιβλιοθήκες MPI Τώρα ξεκίνησε μια διάταξη τρίτης γενιάς, που αποτελείται από εννέα κόμβους που συνδέονται σε ένα δισδιάστατο torus 3x3. Собран стенд с двумя узлами для тестирования новых разъемов и каналов передачи данных, предполагаемых к использованию с будущими кристаллами маршрутизатора ВКС. При разработке принципов работы сети ряд деталей был позаимствован из работ и , а также в том или ином виде из архитектур IBM Blue Gene и Cray SeaStar.

Сеть «Ангара» имеет топологию 4D-тор. Поддерживается детерминированная маршрутизация, сохраняющая порядок передачи пакетов и предотвращающая появление дедлоков (взаимных блокировок), а также адаптивная маршрутизация, позволяющая одновременно использовать множество путей между узлами и обходить перегруженные и вышедшие из строя участки сети. Ιδιαίτερη προσοχή δόθηκε στην υποστήριξη συλλογικών λειτουργιών (μετάδοση και μείωση) υλοποιούμενες χρησιμοποιώντας ένα εικονικό υποδίκτυο που έχει την τοπολογία ενός δέντρου τοποθετημένου πάνω σε ένα πολυδιάστατο στύλο. Το δίκτυο σε επίπεδο υλικού υποστηρίζει δύο τύπους απομακρυσμένων εγγράφων, αναγνώσεις και ατομικές λειτουργίες (addition και exclusive OR). Το σχήμα εκτέλεσης απομακρυσμένης ανάγνωσης (αποστολή αιτήματος και λήψη απάντησης) φαίνεται στο Σχ. 2 (η απομακρυσμένη καταγραφή και οι ατομικές λειτουργίες εκτελούνται παρομοίως). Σε ένα ξεχωριστό μπλοκ, η λογική υλοποιείται για τη συγκέντρωση των μηνυμάτων που λαμβάνονται από το δίκτυο προκειμένου να αυξηθεί το μερίδιο των χρήσιμων δεδομένων ανά συναλλαγή όταν μεταδίδεται μέσω διεπαφής με έναν κεντρικό υπολογιστή (ένας υπολογιστής είναι μια γέφυρα επεξεργαστή-μνήμης-γέφυρας).

Το Σχ. 2. Σχέδιο απομακρυσμένης ανάγνωσης στο δίκτυο Angara

Στο στρώμα ζεύξης δεδομένων υποστηρίζεται η μετάδοση πακέτων ασφαλής σε αποτυχία. Υπάρχει επίσης ένας μηχανισμός για την παράκαμψη των αποτυχημένων καναλιών επικοινωνίας και των κόμβων με την ανοικοδόμηση πινάκων δρομολόγησης. Για να εκτελέσετε διάφορες λειτουργίες παροχής υπηρεσιών (ιδίως, να ρυθμίσετε / επανοικοδομήσετε τους πίνακες δρομολόγησης) και να εκτελέσετε ορισμένους υπολογισμούς, χρησιμοποιείται ένας επεξεργαστής υπηρεσίας. Η διασύνδεση κεντρικού υπολογιστή χρησιμοποιεί PCI Express.

Το Σχ. 3. Η δομή του κόμβου υπολογιστών με προσαρμογέα / δρομολογητή δικτύου "Angara"

Τα κύρια τμήματα του δρομολογητή:

  • διεπαφή με το σύστημα κεντρικού υπολογιστή, υπεύθυνη για τη λήψη και την αποστολή πακέτων στη διεπαφή κεντρικού υπολογιστή,
  • μια μονάδα έγχυσης και εκτόξευσης που σχηματίζει πακέτα προς αποστολή στο δίκτυο και αναλύει τις κεφαλίδες των πακέτων που προέρχονται από το δίκτυο,
  • μια μονάδα επεξεργασίας αιτήματος που επεξεργάζεται πακέτα που απαιτούν πληροφορίες από τη μνήμη του κεντρικού συστήματος (για παράδειγμα, διαβάζει ή ατομικές λειτουργίες),
  • μια μονάδα δικτύου συλλογικών επιχειρήσεων που επεξεργάζεται πακέτα που σχετίζονται με συλλογικές λειτουργίες, συγκεκριμένα, εκτελεί λειτουργίες μείωσης, δημιουργεί πακέτα αιτημάτων εκπομπής,
  • μια μονάδα λειτουργιών εξυπηρέτησης που επεξεργάζεται πακέτα που πηγαίνουν προς και από τον συν-επεξεργαστή υπηρεσίας,
  • ένας διακόπτης που συνδέει εισόδους από διάφορα εικονικά κανάλια και εισόδους από μπεκ ψεκασμού με έξοδο σε διάφορες διευθύνσεις και εκτοξευτήρες,
  • τα κανάλια επικοινωνίας για τη μετάδοση και λήψη δεδομένων σε μια ορισμένη κατεύθυνση,
  • μια μονάδα μετάδοσης δεδομένων για την αποστολή πακέτων σε μια δεδομένη κατεύθυνση και μια μονάδα λήψης και δρομολόγησης για τη λήψη πακέτων και την απόφαση για τη μελλοντική τους μοίρα.

Η αλληλεπίδραση κεντρικού υπολογιστή (ο κώδικας που εκτελείται στον κεντρικό επεξεργαστή) με το δρομολογητή γίνεται με εγγραφή στις διευθύνσεις μνήμης που αντιστοιχίζονται στις διευθύνσεις των περιοχών πόρων του δρομολογητή (είσοδος / έξοδος χαρτογράφησης μνήμης). Αυτό επιτρέπει στην εφαρμογή να αλληλεπιδρά με τον δρομολογητή χωρίς τη συμμετοχή του πυρήνα, γεγονός που μειώνει το γενικό κόστος της αποστολής πακέτων, καθώς η μετάβαση στο περιβάλλον του πυρήνα και η επιστροφή απαιτεί περισσότερους από εκατό κύκλους ρολογιού. Για να στείλετε πακέτα, χρησιμοποιείται μία από τις περιοχές μνήμης, που θεωρείται buffer του δακτυλίου. Υπάρχει επίσης μια ξεχωριστή περιοχή για την εκτέλεση εργασιών χωρίς αντιγραφή μνήμης-μνήμης (τα δεδομένα διαβάζονται από τη μνήμη και γράφονται από τον προσαρμογέα του δικτύου επικοινωνίας μέσω των λειτουργιών DMA) και μια περιοχή με καταχωρητές ελέγχου. Η πρόσβαση σε ορισμένους πόρους του δρομολογητή ελέγχεται από την πυρηνική μονάδα.

Για να επιτευχθεί μεγαλύτερη αποδοτικότητα, αποφασίστηκε να εκτελείται μόνο μία υπολογιστική εργασία σε έναν κόμβο, εξαλείφοντας τα γενικά έξοδα που σχετίζονται με τη χρήση της εικονικής μνήμης, αποφεύγοντας παρεμβολές στην εργασία, απλοποιώντας την αρχιτεκτονική του δρομολογητή λόγω της έλλειψης πλήρους MMU και αποφεύγοντας όλες το έργο της επικοινωνίας καθυστερεί, καθώς και απλοποιεί το μοντέλο ασφάλειας δικτύων, εξαλείφοντας από αυτό την ασφάλεια των διαδικασιών των διαφόρων εργασιών σε έναν κόμβο. Αυτή η λύση δεν επηρέασε τη λειτουργικότητα του δικτύου όπως είχε προβλεφθεί κυρίως για εργασίες μεγάλου μεγέθους (σε αντίθεση με το InfiniBand, ένα καθολικό δίκτυο για εργασίες διαφόρων μεγεθών). Μια παρόμοια απόφαση έγινε στην IBM Blue Gene, όπου εισάγεται περιορισμός για τη μοναδικότητα του έργου για το τμήμα.

Στο επίπεδο υλικού, υποστηρίζεται ταυτόχρονη εργασία με το δρομολογητή πολλών θεμάτων / διαδικασιών μιας εργασίας - υλοποιείται με τη μορφή διαφόρων καναλιών έγχυσης διαθέσιμων για χρήση από διεργασίες μέσω διαφόρων δακτυλικών αποτυπωμάτων για την εγγραφή πακέτων. Ο αριθμός και το μέγεθος αυτών των προσωρινών ρυθμίσεων μπορεί να αλλάξει δυναμικά.

Ο κύριος τρόπος προγραμματισμού για το δίκτυο Angara είναι η κοινή χρήση των MPI, OpenMP και Shmem, καθώς και των GASNet και UPC.

Μετά την ολοκλήρωση της επαλήθευσης και του πρωτοτύπου του δικτύου, προγραμματίζεται η απελευθέρωση ενός τσιπ VLSI. Μια πρωτότυπη παρτίδα VLSI θα σχεδιαστεί για την αποσφαλμάτωση βασικών τεχνολογικών λύσεων, μια τεχνολογική διαδικασία και πειραματική επαλήθευση των αποτελεσμάτων προσομοίωσης. Το πρωτότυπο θα περιέχει όλες τις βασικές λειτουργίες, θα λειτουργεί με τη διασύνδεση PCI Express gen2 x16 και συνδέσεις με απόδοση 75 Gb / s.

Προβλέπεται η προώθηση του δικτύου Angara στην αγορά σε δύο εκδόσεις: ως ξεχωριστό εμπορικό δίκτυο με κάρτες PCI Express για συστήματα συμπλέγματος με τυπικούς επεξεργαστές και chipsets και ως μέρος ενός συστήματος τεσσάρων socket blade που βασίζεται σε επεξεργαστές AMD που αναπτύσσονται στο NICEVT.

Pin
Send
Share
Send
Send