Οι ερευνητές του Goodfire.ai απομόνωσαν μονοπάτια απομνημόνευσης και συλλογισμού σε νευρωνικά δίκτυα τεχνητής νοημοσύνης, που περιγράφονται λεπτομερώς σε μια προέκδοση στα τέλη Οκτωβρίου χαρτί.
Η έρευνα καταδεικνύει έναν σαφή διαχωρισμό αυτών των λειτουργιών στα μεγάλα γλωσσικά μοντέλα. Όταν αφαιρέθηκαν οι διαδρομές απομνημόνευσης, τα μοντέλα έχασαν το 97 τοις εκατό της ικανότητάς τους να απαγγέλλουν αυτολεξεί δεδομένα εκπαίδευσης. Ωστόσο, η ικανότητά τους «λογικού συλλογισμού» παρέμεινε σε μεγάλο βαθμό ανέπαφη.
Οι ερευνητές κατέταξαν τα συστατικά βάρους από υψηλό σε χαμηλό με βάση την «κυρτότητα». Στο μοντέλο γλώσσας OLMo-7B του Ινστιτούτου Allen για την τεχνητή νοημοσύνη, το επίπεδο 22 έδειξε ότι το κάτω 50 τοις εκατό των στοιχείων βάρους είχε 23 τοις εκατό υψηλότερη ενεργοποίηση σε απομνημονευμένα δεδομένα. Αντίθετα, το κορυφαίο 10 τοις εκατό εμφάνισε 26 τοις εκατό μεγαλύτερη ενεργοποίηση σε γενικό, μη απομνημονευμένο κείμενο.
Αυτή η μηχανιστική διάσπαση επέτρεψε τη χειρουργική αφαίρεση της απομνημόνευσης διατηρώντας παράλληλα άλλες δυνατότητες. Η διαγραφή εξαρτημάτων κατώτερης κατάταξης εξάλειψε την απομνημόνευση. διατηρώντας τους κορυφαίους που χειρίζονται την επίλυση προβλημάτων.
Οι αριθμητικές πράξεις φαίνεται να μοιράζονται τα νευρωνικά μονοπάτια με την απομνημόνευση και όχι με τη λογική συλλογιστική. Η κατάργηση των κυκλωμάτων απομνημόνευσης προκάλεσε κατακόρυφη πτώση της απόδοσης των μαθηματικών στο 66%, ενώ οι λογικές εργασίες παρέμειναν σχεδόν ανέγγιχτες. Αυτό μπορεί να εξηγήσει γιατί τα μοντέλα τεχνητής νοημοσύνης παλεύουν με τα μαθηματικά χωρίς εξωτερικά εργαλεία, βασιζόμενα σε απομνημονευμένα γεγονότα όπως το «2+2=4» αντί για υπολογισμούς.
Η «συλλογιστική» της τεχνητής νοημοσύνης περιλαμβάνει ικανότητες όπως η αξιολόγηση αληθών/ψευδών δηλώσεων και η τήρηση κανόνων «αν-τότε», που επιβίωσαν στην αφαίρεση μνήμης. Αυτό διαφέρει από τη βαθύτερη «μαθηματική συλλογιστική» που απαιτείται για αποδείξεις ή νέα επίλυση προβλημάτων, με την οποία παλεύουν τα σημερινά μοντέλα τεχνητής νοημοσύνης ακόμη και με ανέπαφες ικανότητες αντιστοίχισης προτύπων.
Η μελλοντική ανάπτυξη αυτών των τεχνικών αφαίρεσης πληροφοριών θα μπορούσε να επιτρέψει στις εταιρείες τεχνητής νοημοσύνης να αφαιρέσουν περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα, ιδιωτικές πληροφορίες ή επιβλαβές απομνημονευμένο κείμενο από νευρωνικά δίκτυα χωρίς να καταστρέφει την απόδοση μετασχηματιστικών εργασιών. Ωστόσο, οι ερευνητές δηλώνουν ότι η μέθοδός τους «δεν μπορεί να εγγυηθεί την πλήρη εξάλειψη των ευαίσθητων πληροφοριών» λόγω της κατανεμημένης φύσης της αποθήκευσης πληροφοριών στα νευρωνικά δίκτυα.
Η κατανόηση αυτής της διάκρισης περιλαμβάνει το «τοπίο απώλειας», μια απεικόνιση της ακρίβειας πρόβλεψης ενός μοντέλου AI με βάση τις εσωτερικές ρυθμίσεις ή τα «βαρίδια». Η “Απώλεια” μετρά τα σφάλματα, με τη χαμηλή απώλεια να υποδεικνύει λίγα σφάλματα. Το “τοπίο” αντιστοιχίζει τα ποσοστά σφαλμάτων για όλους τους πιθανούς συνδυασμούς ρυθμίσεων. Κατά τη διάρκεια της προπόνησης, τα μοντέλα τεχνητής νοημοσύνης προσαρμόζουν τα βάρη για να ελαχιστοποιήσουν τα λάθη, «κυλιόμενοι» αποτελεσματικά σε αυτό το τοπίο.
Οι ερευνητές ανέλυσαν την «καμπυλότητα» των τοπίων απώλειας, μετρώντας την ευαισθησία της απόδοσης του μοντέλου σε μικρές αλλαγές στα βάρη των νευρωνικών δικτύων. Η υψηλή καμπυλότητα υποδηλώνει αιχμηρές κορυφές και κοιλάδες, που σημαίνει ότι οι μικρές αλλαγές έχουν σημαντικά αποτελέσματα. Η χαμηλή καμπυλότητα σημαίνει επίπεδες πεδιάδες όπου οι αλλαγές έχουν ελάχιστο αντίκτυπο. Αυτές οι τιμές καμπυλότητας χρησιμοποιήθηκαν για την ταξινόμηση των στοιχείων βάρους.
Χρησιμοποιώντας το K-FAC (Κρόνεκερ-Προηγούμενη Καμπυλότητα), οι επιστήμονες ανακάλυψαν ότι μεμονωμένα απομνημονευμένα γεγονότα δημιουργούν έντονες, ιδιότυπες αιχμές στο τοπίο που ισοπεδώνονται όταν υπολογίζονται κατά μέσο όρο. Αντίθετα, οι συλλογιστικές ικανότητες, που βασίζονται σε πολλές διαφορετικές εισροές, διατηρούν συνεπείς, μέτριες καμπύλες.
Οι ερευνητές υποδεικνύουν ότι «οι κατευθύνσεις που εφαρμόζουν κοινούς μηχανισμούς που χρησιμοποιούνται από πολλές εισροές προσθέτουν συνεκτικά και παραμένουν σε υψηλή καμπυλότητα κατά μέσο όρο», περιγράφοντας μονοπάτια συλλογιστικής. Η απομνημόνευση, αντίθετα, χρησιμοποιεί «ιδιοσυγκρασιακές ευκρινείς κατευθύνσεις που σχετίζονται με συγκεκριμένα παραδείγματα» που εμφανίζονται επίπεδες όταν υπολογίζονται κατά μέσο όρο.
Η τεχνική δοκιμάστηκε σε πολλαπλά συστήματα AI, συμπεριλαμβανομένης της οικογένειας OLMo-2 του Ινστιτούτου Allen (εκδόσεις 7 δισεκατομμυρίων και 1 δισεκατομμυρίου παραμέτρων) και προσαρμοσμένων Vision Transformers 86 εκατομμυρίων παραμέτρων (μοντέλα ViT-Base) στο ImageNet. Επικύρωσαν επίσης ευρήματα σε σχέση με υπάρχουσες μεθόδους όπως το BalancedSubnet.
Η επιλεκτική αφαίρεση στοιχείων βάρους χαμηλής καμπυλότητας είχε ως αποτέλεσμα η ανάκληση απομνημονευμένου περιεχομένου να πέσει στο 3,4 τοις εκατό από σχεδόν 100 τοις εκατό. Οι εργασίες λογικής συλλογιστικής διατήρησαν το 95 έως 106 τοις εκατό της βασικής απόδοσης.
Οι λογικές εργασίες περιλάμβαναν αξιολόγηση Boolean έκφρασης, παζλ λογικής αφαίρεσης, παρακολούθηση αντικειμένων, BoolQ για συλλογισμό ναι/όχι, Winogrande για συμπέρασμα κοινής λογικής και OpenBookQA για ερωτήσεις επιστήμης. Οι μαθηματικές πράξεις και η ανάκτηση γεγονότων σε κλειστό βιβλίο, η κοινή χρήση μονοπατιών με απομνημόνευση, μειώθηκαν στο 66 έως 86 τοις εκατό της απόδοσης μετά την επεξεργασία. Η αριθμητική αποδείχθηκε ιδιαίτερα εύθραυστη, με τους υπολογισμούς να αποτυγχάνουν ακόμη και με πανομοιότυπες αλυσίδες συλλογισμού μετά την αφαίρεση των στοιχείων χαμηλής καμπυλότητας.
Η ομάδα εξήγησε, «τα ίδια τα αριθμητικά προβλήματα απομνημονεύονται στην κλίμακα 7Β ή επειδή απαιτούν οδηγίες που χρησιμοποιούνται στενά για να γίνουν ακριβείς υπολογισμοί». Η απάντηση σε ερωτήσεις ανοιχτού βιβλίου, βασιζόμενη στο παρεχόμενο πλαίσιο, διατήρησε σχεδόν πλήρη απόδοση.
Ο διαχωρισμός του μηχανισμού ποικίλλει ανάλογα με τον τύπο πληροφοριών. κοινά γεγονότα όπως οι πρωτεύουσες των χωρών παρουσίασαν ελάχιστη αλλαγή μετά την επεξεργασία, ενώ σπάνια γεγονότα όπως οι διευθύνοντες σύμβουλοι εταιρειών μειώθηκαν κατά 78%, υποδηλώνοντας διαφορική κατανομή νευρικών πόρων με βάση τη συχνότητα πληροφοριών στην εκπαίδευση.
Η τεχνική K-FAC ξεπέρασε τις υπάρχουσες μεθόδους αφαίρεσης απομνημόνευσης, επιτυγχάνοντας 16,1 τοις εκατό απομνημόνευση σε αόρατα ιστορικά εισαγωγικά έναντι 60 τοις εκατό για το BalancedSubnet. Οι μετασχηματιστές όρασης έδειξαν παρόμοια μοτίβα, με την κατάργηση των μονοπατιών απομνημόνευσης που αποκαθιστά την ακρίβεια 66,5 τοις εκατό σε εικόνες που είχαν προηγουμένως εσφαλμένη σήμανση.
Οι ερευνητές αναγνωρίζουν τους περιορισμούς. Οι αφαιρεμένες μνήμες μπορεί να επιστρέψουν με περαιτέρω εκπαίδευση, καθώς οι τρέχουσες μέθοδοι απομάθησης καταστέλλουν κυρίως πληροφορίες. Ο λόγος για την ευθραυστότητα των μαθηματικών κατά την αφαίρεση της απομνημόνευσης είναι ασαφής, όπως και αν ορισμένες σύνθετες ικανότητες αναγνωρίζονται εσφαλμένα ως απομνημόνευση. Επιπλέον, τα μαθηματικά εργαλεία για τη μέτρηση του «τοπίου» του μοντέλου μπορεί να είναι αναξιόπιστα στα άκρα.
VIA: DataConomy.com










