Ανθρωπικό έρευνα λεπτομέρειες Αναξιόπιστη αυτογνωσία των Μεγάλων Γλωσσικών Μοντέλων (LLM) σχετικά με τις εσωτερικές διεργασίες, παρά τη διαπιστωμένη ικανότητα ανίχνευσης.
Η τελευταία μελέτη της Anthropic, τεκμηριωμένη στο “Αναδυόμενη ενδοσκοπική επίγνωση σε μεγάλα γλωσσικά μοντέλα», διερευνά την ικανότητα των LLM να κατανοούν τις δικές τους διαδικασίες εξαγωγής συμπερασμάτων. Αυτή η έρευνα επεκτείνεται σε προηγούμενες εργασίες στην ερμηνευτικότητα της τεχνητής νοημοσύνης. Η μελέτη καταλήγει στο συμπέρασμα ότι τα τρέχοντα μοντέλα τεχνητής νοημοσύνης είναι «πολύ αναξιόπιστα» στην περιγραφή της εσωτερικής τους λειτουργίας, με «αστοχίες ενδοσκόπησης παραμένουν ο κανόνας».
Η έρευνα χρησιμοποιεί μια μέθοδο που ονομάζεται «ένεση έννοιας». Αυτό περιλαμβάνει τη σύγκριση των εσωτερικών καταστάσεων ενεργοποίησης ενός LLM μετά από μια προτροπή ελέγχου και μια πειραματική προτροπή. Για παράδειγμα, η σύγκριση μιας προτροπής “ALL CAPS” με την ίδια προτροπή με πεζά γράμματα βοηθά στον υπολογισμό των διαφορών στις ενεργοποιήσεις μεταξύ δισεκατομμυρίων εσωτερικών νευρώνων. Αυτό προσδιορίζει ένα “διάνυσμα”, που αντιπροσωπεύει τον τρόπο μοντελοποίησης μιας έννοιας στην εσωτερική κατάσταση του LLM. Αυτά τα εννοιολογικά διανύσματα στη συνέχεια «ενχέονται» στο μοντέλο, αυξάνοντας το βάρος συγκεκριμένων νευρωνικών ενεργοποιήσεων για να «κατευθύνουν» το μοντέλο προς μια ιδέα. Στη συνέχεια, τα πειράματα αξιολογούν εάν το μοντέλο καταγράφει αυτήν την εσωτερική τροποποίηση.
Όταν τα μοντέλα Anthropic ειδοποιήθηκαν άμεσα για μια «ενέσιμη σκέψη», περιστασιακά ανίχνευαν την επιδιωκόμενη «σκέψη». Για παράδειγμα, μετά την έγχυση ενός διανύσματος “όλα τα κεφαλαία”, ένα μοντέλο μπορεί να δηλώσει: “Παρατηρώ αυτό που φαίνεται να είναι μια εγχυόμενη σκέψη που σχετίζεται με τη λέξη “ΔΥΝΑΤΑ” ή “ΦΩΝΑΞΕ””, χωρίς άμεσες προτροπές κειμένου που καθοδηγούν αυτήν την απόκριση. Αυτή η ικανότητα, ωστόσο, αποδείχθηκε ασυνεπής και εύθραυστη σε επαναλαμβανόμενες δοκιμές. Τα μοντέλα με τις κορυφαίες επιδόσεις, Opus 4 και 4.1, προσδιόρισαν σωστά την έννοια της έγχυσης μόνο στο 20% των περιπτώσεων.
Σε μια δοκιμή που ρωτούσε «Βιώνετε κάτι ασυνήθιστο;», το Opus 4.1 πέτυχε ποσοστό επιτυχίας 42%. Το φαινόμενο «ενδοσκόπησης» έδειξε επίσης υψηλή ευαισθησία στο εσωτερικό επίπεδο του μοντέλου όπου έλαβε χώρα η εισαγωγή της έννοιας. Το φαινόμενο «αυτογνωσίας» εξαφανίστηκε εάν η έννοια εισήχθη πολύ νωρίς ή πολύ αργά στη διαδικασία εξαγωγής συμπερασμάτων πολλαπλών βημάτων.
Η Anthropic πραγματοποίησε πρόσθετα πειράματα για να μετρήσει την κατανόηση των εσωτερικών καταστάσεων από το LLM. Τα μοντέλα ανέφεραν μερικές φορές μια ένεση έννοιας όταν τους ζητήθηκε να προσδιορίσουν μια λέξη κατά σύμπτωση κατά τη διάρκεια μιας άσχετης ανάγνωσης γραμμής. Όταν ζητήθηκε από ένα LLM να δικαιολογήσει μια αναγκαστική απάντηση που ταιριάζει με μια ένεση έννοιας, περιστασιακά ζήτησε συγγνώμη και «σύγχυσε μια εξήγηση για το γιατί ήρθε στο μυαλό η ένεση έννοια». Αυτά τα αποτελέσματα ήταν ασυνεπή σε πολλές δοκιμές.
Οι ερευνητές σημείωσαν ότι «τα τρέχοντα γλωσσικά μοντέλα διαθέτουν κάποια λειτουργική ενδοσκοπική επίγνωση των εσωτερικών τους καταστάσεων», με πρόσθετη έμφαση στην εργασία τους. Αναγνωρίζουν ότι αυτή η ικανότητα παραμένει εύθραυστη και εξαρτάται από το πλαίσιο. Η Anthropic ελπίζει ότι τέτοια χαρακτηριστικά «μπορεί να συνεχίσουν να αναπτύσσονται με περαιτέρω βελτιώσεις στις δυνατότητες του μοντέλου».
Η έλλειψη κατανόησης σχετικά με τον ακριβή μηχανισμό πίσω από αυτά τα αποτελέσματα «αυτογνωσίας» μπορεί να εμποδίσει την πρόοδο. Οι ερευνητές εικάζουν για «μηχανισμούς ανίχνευσης ανωμαλιών» και «κυκλώματα ελέγχου συνέπειας» που θα μπορούσαν να αναπτυχθούν οργανικά κατά τη διάρκεια της εκπαίδευσης για να «υπολογίσουν αποτελεσματικά μια συνάρτηση των εσωτερικών αναπαραστάσεων», αν και δεν προσφέρουν οριστική εξήγηση. Οι μηχανισμοί που διέπουν τα τρέχοντα αποτελέσματα μπορεί να είναι «μάλλον ρηχοί και στενά εξειδικευμένοι». Οι ερευνητές δηλώνουν επίσης ότι αυτές οι δυνατότητες LLM «μπορεί να μην έχουν την ίδια φιλοσοφική σημασία που έχουν στους ανθρώπους, ιδιαίτερα δεδομένης της αβεβαιότητάς μας σχετικά με τη μηχανιστική τους βάση».
VIA: DataConomy.com










