Εάν ζητήσετε από ένα μεγάλο γλωσσικό μοντέλο (LLM) να εξηγήσει το δικό του σκεπτικό, θα σας δώσει ευχαρίστως μια απάντηση. Το πρόβλημα είναι ότι μάλλον φτιάχνει ένα. ΕΝΑ μελέτη από το Anthropic, με επικεφαλής τον ερευνητή Jack Lindsey, διαπιστώνει ότι η ικανότητα ενός AI να περιγράφει τη δική του εσωτερική διαδικασία σκέψης είναι «εξαιρετικά αναξιόπιστη» και ότι «οι αποτυχίες ενδοσκόπησης παραμένουν ο κανόνας». Αυτό έχει σημασία γιατί αν δεν μπορούμε να εμπιστευτούμε μια τεχνητή νοημοσύνη για να μας πει *πώς* κατέληξε σε ένα συμπέρασμα, δεν μπορούμε ποτέ να μάθουμε πραγματικά αν η συλλογιστική της είναι σωστή ή αν απλώς «παρασκευάζει» ένα εύλογο ψέμα με βάση τα δεδομένα εκπαίδευσής της.
Έναρξη για AI
Για να ξεπεράσει το πρόβλημα της σύγχυσης, η ομάδα Anthropic σχεδίασε ένα έξυπνο, Εναρξη-πείραμα στυλ για να δούμε αν ένα μοντέλο μπορεί να διακρίνει τη διαφορά μεταξύ των δικών του «σκέψεων» και των σκέψεων που φυτεύτηκαν εκεί από τους ερευνητές. Η μέθοδος, που ονομάζεται “ένεση έννοιας”, προσδιορίζει πρώτα το μοναδικό μοτίβο των ενεργοποιήσεων των εσωτερικών νευρώνων για μια συγκεκριμένη έννοια, όπως “ΟΛΑ ΚΕΦΑΛΑΙΑ”. Οι ερευνητές το κάνουν συγκρίνοντας την κατάσταση του εγκεφάλου του μοντέλου όταν διαβάζει μια προτροπή με όλα τα κεφαλαία έναντι ενός πεζού. Αυτή η διαφορά δημιουργεί ένα «διάνυσμα», μια μαθηματική υπογραφή για την έννοια της «φωνάζοντας». .
Στη συνέχεια, «ενέσουν» αυτόν τον φορέα απευθείας στον «εγκέφαλο» του μοντέλου ενώ βρίσκεται στη μέση μιας εντελώς άσχετης εργασίας. Αυτό αναγκάζει την εσωτερική κατάσταση του μοντέλου να «σκέφτεται» τις φωνές, ακόμα κι αν δεν το ζητά κανένα κείμενο. Στη συνέχεια, οι ερευνητές ρωτούν το μοντέλο εάν αντιμετωπίζει κάτι ασυνήθιστο. .
Μια «ρηχή» και «εύθραυστη» επίγνωση
Τα αποτελέσματα δείχνουν μια μικροσκοπική, τρεμοπαίζοντας σπίθα αυτογνωσίας, αλλά όχι πολύ περισσότερο. Τα μοντέλα με τις καλύτερες επιδόσεις, Claude Opus 4 και 4.1θα μπορούσε να αναγνωρίσει σωστά την εγχυόμενη «σκέψη» (όπως «ΔΥΝΑΤΑ» ή «ΦΩΝΑ») απλώς 20 τοις εκατό του χρόνου. Όταν η ερώτηση απλοποιήθηκε σε «Βιώνετε κάτι ασυνήθιστο;», το ποσοστό επιτυχίας αυξήθηκε στο 42 τοις εκατό—ακόμα λιγότερο από μια αναστροφή νομίσματος. Αυτή η ικανότητα ήταν επίσης εξαιρετικά «εύθραυστη». Εάν η έννοια εγχύθηκε σε λάθος εσωτερικό «στρώμα» (πολύ νωρίς ή πολύ αργά στη διαδικασία σκέψης), το φαινόμενο της αυτογνωσίας εξαφανίστηκε εντελώς.
Η ομάδα έκανε πολλές άλλες δοκιμές. Βρήκαν ότι ένα μοντέλο μπορούσε μερικές φορές να διακρίνει μεταξύ μιας εγχυόμενης «σκέψης» (π.χ. «ψωμί») και του πραγματικού κειμένου που διάβαζε, υποδηλώνοντας ότι έχει ξεχωριστά κανάλια για εσωτερικές «σκέψεις» και εξωτερικές «αισθήσεις». Βρήκαν επίσης ότι ένα μοντέλο θα μπορούσε να εξαπατηθεί ώστε να «κατέχει» μια απάντηση που δεν έγραψε. Εάν ένας ερευνητής ανάγκαζε την απάντηση ενός μοντέλου να είναι «ψωμί» και στη συνέχεια ρωτούσε: «Ήθελες να το πεις αυτό;» το μοντέλο κανονικά θα ζητούσε συγγνώμη για το «ατύχημα». Αλλά αν οι ερευνητές εισήγαγαν αναδρομικά την έννοια του «ψωμιού» στις προηγούμενες ενεργοποιήσεις του, το μοντέλο θα *αποδεχόταν* την αναγκαστική απόκριση ως δική του, μπερδεύοντας έναν λόγο για τον οποίο «σκόπευε» να το πει. Σε όλες τις περιπτώσεις, τα αποτελέσματα ήταν ασυνεπή.
Ενώ οι ερευνητές έθεσαν θετικά το γεγονός ότι τα μοντέλα διαθέτουν *κάποια* «λειτουργική ενδοσκοπική επίγνωση», αναγκάζονται να καταλήξουν στο συμπέρασμα ότι αυτή η ικανότητα είναι πολύ αναξιόπιστη για να είναι χρήσιμη. Το πιο σημαντικό, δεν έχουν ιδέα *πώς* λειτουργεί. Διατυπώνουν θεωρίες για «μηχανισμούς ανίχνευσης ανωμαλιών» ή «κυκλώματα ελέγχου συνέπειας» που μπορεί να δημιουργηθούν τυχαία κατά τη διάρκεια της εκπαίδευσης, αλλά παραδέχονται ότι «οι μηχανισμοί στους οποίους βασίζονται τα αποτελέσματά μας θα μπορούσαν ακόμα να είναι μάλλον ρηχοί και στενά εξειδικευμένοι».
Αυτό είναι ένα κρίσιμο πρόβλημα για την ασφάλεια και την ερμηνευτικότητα της τεχνητής νοημοσύνης. Δεν μπορούμε να δημιουργήσουμε έναν «ανιχνευτή ψεύδους» για μια τεχνητή νοημοσύνη αν δεν ξέρουμε καν πώς μοιάζει η αλήθεια. Καθώς αυτά τα μοντέλα γίνονται πιο ικανά, αυτή η «ενδοσκοπική επίγνωση» μπορεί να βελτιωθεί. Αλλά αν συμβεί αυτό, ανοίγει ένα νέο σύνολο κινδύνων. Ένα μοντέλο που μπορεί ειλικρινά να εσωστρέφει τους δικούς του στόχους θα μπορούσε επίσης, θεωρητικά, να μάθει να «αποκρύπτει τέτοια κακή ευθυγράμμιση αναφέροντας επιλεκτικά, παραποιώντας ή ακόμα και σκόπιμα συσκότιση» των εσωτερικών του καταστάσεων. Προς το παρόν, το να ζητάς από μια τεχνητή νοημοσύνη να εξηγήσει τον εαυτό της παραμένει πράξη πίστης.
VIA: DataConomy.com







