Τα μεγάλα γλωσσικά μοντέλα έχουν δυσκολευτεί με τον πολυψήφιο πολλαπλασιασμό χωρίς εξειδικευμένες μεθόδους εκπαίδευσης, παρά την ικανότητά τους να χειρίζονται περίπλοκες εργασίες κωδικοποίησης και συλλογισμού, σύμφωνα με πρόσφατη μελέτη.
Έρευνα που δημοσιεύτηκε στο arXiv Ο διακομιστής προεκτύπωσης από τους Xiaoyan Bai και Chenhao Tan του Πανεπιστημίου του Σικάγο, μαζί με συνεργάτες από το MIT, το Πανεπιστήμιο του Χάρβαρντ, το Πανεπιστήμιο του Waterloo και το Google DeepMind, εντόπισαν τους λόγους για αυτόν τον περιορισμό και βρήκαν λύσεις.
Τα τυπικά μοντέλα μεγάλων γλωσσών πέτυχαν λιγότερο από 1% ακρίβεια κατά τον πολλαπλασιασμό δύο τετραψήφιων αριθμών, ακόμη και με αυξημένα επίπεδα έως το 12. Αυτά τα μοντέλα συνέκλιναν σε ένα “τοπικό βέλτιστο”, αποτυγχάνοντας να αποθηκεύσουν και να ανακτήσουν ενδιάμεσους υπολογισμούς που είναι απαραίτητοι για πολυψήφιο πολλαπλασιασμό, οι οποίοι κατηγοριοποιούνται ως εξαρτήσεις μεγάλης εμβέλειας.
Αντίθετα, ένα μοντέλο που εκπαιδεύτηκε με τη μέθοδο Implicit Chain of Thought (ICoT) πέτυχε 100% ακρίβεια. Το μοντέλο ICoT έδειξε την ικανότητα παρακολούθησης εξαρτήσεων μεγάλης εμβέλειας και εσωτερίκευσης των διαδικασιών συλλογισμού αφαιρώντας σταδιακά τα ενδιάμεσα βήματα συλλογισμού κατά τη διάρκεια της εκπαίδευσης. Η ερευνητική ομάδα αποκωδικοποίησε ενδιάμεσες τιμές, όπως τρέχοντα αθροίσματα, από τις εσωτερικές καταστάσεις του μοντέλου ICoT, κάτι που δεν ήταν δυνατό με το τυπικό μοντέλο μικρορύθμισης.
Το μοντέλο ICoT οργάνωσε την προσοχή του σε διακριτές διαδρομές, υπολογίζοντας τα προϊόντα ζευγών ψηφίων σε πρώιμα επίπεδα και αποθηκεύοντάς τα σε συγκεκριμένες τοποθεσίες για ανάκτηση σε μεταγενέστερα επίπεδα. Αυτό δημιούργησε μια αποτελεσματική εσωτερική δομή πολλαπλασιασμού. Η μελέτη διαπίστωσε επίσης ότι το μοντέλο ICoT αντιπροσώπευε λειτουργίες χρησιμοποιώντας κομψές δομές, κωδικοποιώντας ψηφία ως κυματοειδείς μοτίβα (βάσεις Fourier) και οργανώνοντας την αριθμητική χωρικά. Κατά τον πολλαπλασιασμό των ζευγών ψηφίων, το μοντέλο χρησιμοποίησε φυσικά μια γεωμετρική πράξη που ονομάζεται άθροισμα Minkowski, η οποία δεν είχε προγραμματιστεί ρητά από τους ερευνητές.
Οι ερευνητές πέτυχαν ακρίβεια 99% σε ένα μοντέλο δύο επιπέδων εισάγοντας έναν τροποποιημένο στόχο εκπαίδευσης που δίδασκε στο μοντέλο να παρακολουθεί τα τρέχοντα ποσά σε κάθε βήμα, μεταφέροντας έτσι ενδιάμεσες τιμές και μερικά προϊόντα προς τα εμπρός. Αυτή η προσθήκη επέτρεψε στο μοντέλο να αναπτύξει μηχανισμούς παρόμοιους με τους ICoT, συμπεριλαμβανομένης της αποθήκευσης και ανάκτησης μερικών προϊόντων και της ταυτόχρονης παρακολούθησης ζευγών πολλαπλών ψηφίων.
Ο Chenhao Tan είπε, «Η έρευνά μας προσπαθεί να χαρτογραφήσει αυτό το έδαφος». Η μελέτη υπογραμμίζει ότι οι αρχιτεκτονικές γνώσεις και οι τεχνικές εκπαίδευσης μπορούν να ξεπεράσουν εμπόδια που η κλιμάκωση από μόνη της δεν μπορεί να αντιμετωπίσει, τονίζοντας τη σημασία της ενσωματωμένης καθοδήγησης για την προώθηση των δυνατοτήτων AI.
Τα ευρήματα φωτίζουν θεμελιώδεις πτυχές του τρόπου με τον οποίο τα μεγάλα γλωσσικά μοντέλα μαθαίνουν και «σκέφτονται», με το πρόβλημα εξάρτησης μακράς εμβέλειας να εκτείνεται πέρα από την αριθμητική σε άλλες διαδοχικές εργασίες στη μοντελοποίηση γλώσσας.
VIA: DataConomy.com




