Η Apple είναι τοποθέτησης το νέο MacBook Pro που τροφοδοτείται από M5 ως ένα πολύ πιο ικανό μηχάνημα για λειτουργία και πειραματισμό με μεγάλα γλωσσικά μοντέλα, χάρη στις αναβαθμίσεις τόσο στο πλαίσιο MLX του όσο και στους νευρωνικούς επιταχυντές GPU που είναι ενσωματωμένοι στο τσιπ. Για ερευνητές και προγραμματιστές που προτιμούν όλο και περισσότερο να εργάζονται απευθείας σε υλικό πυριτίου της Apple, η εταιρεία προωθεί τη σειρά M5 ως ένα σημαντικό βήμα προς τα εμπρός στην απόδοση συμπερασμάτων στη συσκευή, ειδικά για LLM και άλλους φόρτους εργασίας που κυριαρχούνται από λειτουργίες matrix.
Στο επίκεντρο αυτής της προσπάθειας βρίσκεται το MLX, το πλαίσιο συστοιχιών ανοιχτού κώδικα της Apple που έχει σχεδιαστεί ειδικά για την ενοποιημένη αρχιτεκτονική μνήμης. Το MLX παρέχει μια διεπαφή τύπου NumPy για αριθμητικούς υπολογισμούς, υποστηρίζει τόσο την εκπαίδευση όσο και την εξαγωγή συμπερασμάτων για νευρωνικά δίκτυα και επιτρέπει στους προγραμματιστές να κινούνται απρόσκοπτα μεταξύ της εκτέλεσης CPU και GPU χωρίς να μεταφέρουν δεδομένα σε διαφορετικές δεξαμενές μνήμης. Λειτουργεί σε όλα τα συστήματα πυριτίου της Apple, αλλά η τελευταία έκδοση beta του macOS ξεκλειδώνει ένα νέο επίπεδο επιτάχυνσης πατώντας στις αποκλειστικές μονάδες πολλαπλασιασμού matrix μέσα στη GPU του M5. Αυτοί οι νευρωνικοί επιταχυντές εκτίθενται μέσω του TensorOps στο Metal 4 και δίνουν στο MLX πρόσβαση στην απόδοση, σύμφωνα με την οποία η Apple υποστηρίζει ότι είναι ζωτικής σημασίας για φόρτους εργασίας που κυριαρχούνται από μεγάλους πολλαπλασιασμούς τανυστών.
Στην κορυφή του MLX βρίσκεται το MLX LM, ένα πακέτο για δημιουργία κειμένου και τελειοποίηση που υποστηρίζει τα περισσότερα μοντέλα γλώσσας που φιλοξενούνται στο Hugging Face. Οι χρήστες μπορούν να το εγκαταστήσουν μέσω pip, να ξεκινήσουν συνεδρίες συνομιλίας από το τερματικό και να κβαντίσουν μοντέλα απευθείας στη συσκευή. Η κβαντοποίηση είναι ένα βασικό χαρακτηριστικό: η μετατροπή ενός μοντέλου Mistral παραμέτρων 7Β σε 4-bit διαρκεί μόνο δευτερόλεπτα, μειώνοντας δραματικά τις απαιτήσεις μνήμης, διατηρώντας παράλληλα τη χρηστικότητα σε καταναλωτικές μηχανές.
Για να παρουσιάσει τα κέρδη της M5, η Apple σημείωσε συγκριτική αξιολόγηση πολλών μοντέλων, συμπεριλαμβανομένων των Qwen 1.7B και 8B (BF16), 4-bit quantized Qwen 8B και 14B και δύο αρχιτεκτονικές με συνδυασμό ειδικών: Qwen 30B (3B ενεργό) και GPT-OSSXFP4. Τα αποτελέσματα επικεντρώνονται στον χρόνο έως το πρώτο διακριτικό (TTFT) και στην ταχύτητα παραγωγής κατά την παραγωγή 128 πρόσθετων διακριτικών από μια προτροπή 4.096 κουπόνι.
Οι νευρωνικοί επιταχυντές του M5 βελτιώνουν σημαντικά το TTFT, μειώνοντας την αναμονή κάτω από 10 δευτερόλεπτα για ένα πυκνό μοντέλο 14Β και κάτω από 3 δευτερόλεπτα για ένα 30Β MoE. Η Apple αναφέρει επιταχύνσεις TTFT μεταξύ 3,3x και 4x σε σύγκριση με την προηγούμενη γενιά M4. Η επακόλουθη δημιουργία διακριτικών – η οποία περιορίζεται από το εύρος ζώνης της μνήμης και όχι από τον υπολογισμό – παρουσιάζει μικρότερα αλλά σταθερά κέρδη περίπου 19–27%, ευθυγραμμισμένα με την αύξηση του εύρους ζώνης κατά 28% του M5 (153 GB/s έναντι 120 GB/s στο M4).
Οι δοκιμές υπογραμμίζουν επίσης πόση χωρητικότητα μοντέλου χωράει άνετα στην ενοποιημένη μνήμη. Ένα MacBook Pro 24 GB μπορεί να φιλοξενήσει ένα μοντέλο 8Β σε BF16 ή ένα 30Β MoE στα 4 bit με ελεύθερο χώρο, διατηρώντας τη συνολική χρήση κάτω από 18 GB και στις δύο περιπτώσεις.
Η Apple λέει ότι τα ίδια πλεονεκτήματα του επιταχυντή εκτείνονται πέρα από τα μοντέλα γλώσσας. Για παράδειγμα, η δημιουργία εικόνας 1024×1024 με FLUX-dev-4bit (παράμετροι 12B) εκτελείται περισσότερο από 3,8 φορές γρηγορότερα σε M5 από ό,τι σε M4. Καθώς το MLX συνεχίζει να προσθέτει δυνατότητες και να διευρύνει την υποστήριξη μοντέλων, η εταιρεία στοιχηματίζει ότι περισσότεροι από την ερευνητική κοινότητα ML θα αντιμετωπίζουν το πυρίτιο της Apple όχι μόνο ως περιβάλλον ανάπτυξης αλλά ως βιώσιμη πλατφόρμα συμπερασμάτων και πειραματισμού.
VIA: DataConomy.com







