Η Nvidia χρησιμοποιεί εξομοίωση λογισμικού για τη βελτίωση της απόδοσης υπολογισμού κινητής υποδιαστολής διπλής ακρίβειας (FP64) στους επιταχυντές AI για υπολογιστές υψηλής απόδοσης (HPC) και επιστημονικές εφαρμογές, σύμφωνα με Το Μητρώο. Αυτή η στρατηγική έρχεται καθώς η εταιρεία αποκαλύπτει τις Rubin GPU της, οι οποίες προσφέρουν 33 teraFLOPS κορυφαίας απόδοσης FP64, μείωση 1 teraFLOP από την GPU H100.
Οι βιβλιοθήκες CUDA της Nvidia μπορούν να επιτύχουν έως και 200 teraFLOPS απόδοσης μήτρας FP64 μέσω εξομοίωσης λογισμικού, που αντιπροσωπεύει αύξηση 4,4 φορές σε σχέση με τις δυνατότητες υλικού των επιταχυντών Blackwell. Ο Dan Ernst, ανώτερος διευθυντής προϊόντων υπερυπολογιστών της Nvidia, δήλωσε ότι η ακρίβεια της εξομοίωσης ταιριάζει ή υπερβαίνει αυτή του υλικού πυρήνα τανυστήρα. Ωστόσο, ο Nicholas Malaya, ένας συνεργάτης της AMD, αμφισβήτησε την αποτελεσματικότητα του προσομοιωμένου FP64 σε φυσικές επιστημονικές προσομοιώσεις σε σύγκριση με τα σημεία αναφοράς.
Το FP64 παραμένει κρίσιμο για τους επιστημονικούς υπολογιστές λόγω του δυναμικού του εύρους, ικανό να εκφράζει πάνω από 18,44 εκατομμύρια μοναδικές τιμές, σε αντίθεση με τις 256 μοναδικές τιμές του FP8 που χρησιμοποιούνται σε μοντέλα τεχνητής νοημοσύνης. Οι προσομοιώσεις HPC, σε αντίθεση με τους φόρτους εργασίας AI, απαιτούν υψηλή ακρίβεια για την πρόληψη της διάδοσης σφαλμάτων που μπορεί να οδηγήσει σε αστάθεια του συστήματος, σύμφωνα με τη Malaya.
Η ιδέα της χρήσης τύπων δεδομένων χαμηλότερης ακρίβειας για την εξομοίωση του FP64 χρονολογείται από τα μέσα του 20ου αιώνα. Στις αρχές του 2024, ερευνητές από τα ινστιτούτα τεχνολογίας του Τόκιο και της Shibaura δημοσίευσαν μια εργασία που αποδεικνύει ότι οι λειτουργίες μήτρας FP64 μπορούσαν να αποσυντεθούν σε πολλαπλές λειτουργίες INT8 στους πυρήνες τανυστή της Nvidia, επιτυγχάνοντας απόδοση υψηλότερη από την εγγενή. Αυτή η μέθοδος, γνωστή ως σχήμα Ozaki, αποτελεί τη βάση για τις βιβλιοθήκες εξομοίωσης FP64 της Nvidia, που κυκλοφόρησαν στα τέλη του περασμένου έτους. Ο Ernst επιβεβαίωσε ότι ο προσομοιωμένος υπολογισμός διατηρεί την ακρίβεια FP64, διαφέροντας μόνο στη μέθοδο εκτέλεσης υλικού.
Οι σύγχρονες GPU διαθέτουν πυρήνες τανυστή χαμηλής ακρίβειας, όπως αυτοί στο Rubin, οι οποίοι προσφέρουν 35 petaFLOPS πυκνού υπολογισμού FP4. Αυτοί οι πυρήνες είναι πάνω από 1.000 φορές ταχύτεροι από εξαρτήματα ειδικά για το FP64. Ο Ernst εξήγησε ότι η αποτελεσματικότητα αυτών των πυρήνων χαμηλής ακρίβειας οδήγησε στη διερεύνηση της χρήσης τους για εξομοίωση FP64, ευθυγραμμιζόμενη με την ιστορική τάση στον υπερυπολογισμό της μόχλευσης του διαθέσιμου υλικού.
Η AMD έχει εκφράσει επιφυλάξεις σχετικά με την ακρίβεια της εξομοίωσης FP64. Η Malaya σημείωσε ότι η προσέγγιση έχει καλή απόδοση για καλά κλιματιζόμενα αριθμητικά συστήματα, όπως τα σημεία αναφοράς High Performance Linpack (HPL), αλλά μπορεί να παραπαίει σε λιγότερο κλιματιζόμενα συστήματα που βρίσκονται στην επιστήμη των υλικών ή στους κώδικες καύσης. Τόνισε επίσης ότι οι αλγόριθμοι της Nvidia για την εξομοίωση FP64 δεν είναι πλήρως συμβατοί με το IEEE, αποτυγχάνοντας να λάβουν υπόψη αποχρώσεις όπως θετικά έναντι αρνητικά μηδενικά ή σφάλματα «όχι αριθμού». Αυτές οι αποκλίσεις μπορεί να οδηγήσουν σε μικρά σφάλματα που διαδίδονται και επηρεάζουν τα τελικά αποτελέσματα. Η Malaya πρόσθεσε ότι το σχήμα Ozaki διπλασιάζει περίπου την κατανάλωση μνήμης για τους πίνακες FP64. Το επερχόμενο MI430X της AMD θα βελτιώσει συγκεκριμένα την απόδοση υλικού διπλής και απλής ακρίβειας χρησιμοποιώντας την αρχιτεκτονική του chiplet.
Ο Ernst αναγνώρισε ορισμένους περιορισμούς, αλλά υποστήριξε ότι ζητήματα όπως τα θετικά/αρνητικά μηδενικά δεν είναι κρίσιμα για τους περισσότερους επαγγελματίες HPC. Η Nvidia έχει αναπτύξει συμπληρωματικούς αλγόριθμους για τον εντοπισμό και τον μετριασμό ζητημάτων όπως οι μη αριθμοί και οι άπειροι αριθμοί. Δήλωσε ότι η αυξημένη επιβάρυνση της μνήμης σχετίζεται με τη λειτουργία, όχι ολόκληρη την εφαρμογή, με τις τυπικές μήτρες να είναι μερικά gigabyte. Ο Ernst υποστήριξε ότι ζητήματα συμμόρφωσης IEEE συχνά δεν προκύπτουν σε περιπτώσεις πολλαπλασιασμού πινάκων, ειδικά σε λειτουργίες DGEMM.
Η εξομοίωση ωφελεί πρωτίστως ένα υποσύνολο εφαρμογών HPC που βασίζονται σε λειτουργίες πολλαπλασιασμού πυκνού γενικού πίνακα (DGEMM). Η Malaya υπολόγισε ότι το 60% έως το 70% των φόρτων εργασίας HPC, ιδιαίτερα εκείνων που βασίζονται σε vector FMA, βλέπουν ελάχιστα έως καθόλου οφέλη από την εξομοίωση. Για διανυσματικά βαρείς φόρτους εργασίας, όπως η υπολογιστική δυναμική ρευστών, οι GPU Rubin της Nvidia πρέπει να χρησιμοποιούν πιο αργούς διανυσματικούς επιταχυντές FP64 εντός των πυρήνων τους CUDA. Ο Ernst αντέτεινε ότι τα θεωρητικά FLOPS δεν μεταφράζονται πάντα σε χρησιμοποιήσιμη απόδοση, ιδιαίτερα όταν το εύρος ζώνης της μνήμης λειτουργεί ως εμπόδιο. Η Rubin, με 22 TB/s μνήμης HBM4, αναμένεται να προσφέρει υψηλότερη απόδοση σε πραγματικό κόσμο σε αυτούς τους φόρτους εργασίας παρά την πιο αργή διανυσματική απόδοση FP64.
Η βιωσιμότητα της εξομοίωσης FP64 θα δοκιμαστεί καθώς νέοι υπερυπολογιστές που ενσωματώνουν τις GPU της Nvidia Blackwell και Rubin θα τεθούν σε λειτουργία. Οι αλγόριθμοι μπορούν να βελτιωθούν με την πάροδο του χρόνου, δεδομένης της φύσης τους που βασίζονται σε λογισμικό. Η Malaya ανέφερε ότι η AMD διερευνά επίσης την εξομοίωση FP64 σε τσιπ όπως το MI355X μέσω σημαιών λογισμικού. Τόνισε ότι η συμμόρφωση με το IEEE θα επικυρώσει την προσέγγιση διασφαλίζοντας τη συνέπεια των αποτελεσμάτων με το αποκλειστικό πυρίτιο. Η Malaya πρότεινε ότι η κοινότητα θα πρέπει να δημιουργήσει μια σειρά εφαρμογών για την αξιολόγηση της αξιοπιστίας της εξομοίωσης σε διαφορετικές περιπτώσεις χρήσης.
VIA: DataConomy.com


