Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

Εάν ζητήσετε από ένα μεγάλο γλωσσικό μοντέλο (LLM) να εξηγήσει το δικό του σκεπτικό, θα σας δώσει ευχαρίστως μια απάντηση. Το πρόβλημα είναι ότι μάλλον φτιάχνει ένα. ΕΝΑ μελέτη από το Anthropic, με επικεφαλής τον ερευνητή Jack Lindsey, διαπιστώνει ότι η ικανότητα ενός AI να περιγράφει τη δική του εσωτερική διαδικασία σκέψης είναι «εξαιρετικά αναξιόπιστη» και ότι «οι αποτυχίες ενδοσκόπησης παραμένουν ο κανόνας». Αυτό έχει σημασία γιατί αν δεν μπορούμε να εμπιστευτούμε μια τεχνητή νοημοσύνη για να μας πει *πώς* κατέληξε σε ένα συμπέρασμα, δεν μπορούμε ποτέ να μάθουμε πραγματικά αν η συλλογιστική της είναι σωστή ή αν απλώς «παρασκευάζει» ένα εύλογο ψέμα με βάση τα δεδομένα εκπαίδευσής της.

Έναρξη για AI

Για να ξεπεράσει το πρόβλημα της σύγχυσης, η ομάδα Anthropic σχεδίασε ένα έξυπνο, Εναρξη-πείραμα στυλ για να δούμε αν ένα μοντέλο μπορεί να διακρίνει τη διαφορά μεταξύ των δικών του «σκέψεων» και των σκέψεων που φυτεύτηκαν εκεί από τους ερευνητές. Η μέθοδος, που ονομάζεται “ένεση έννοιας”, προσδιορίζει πρώτα το μοναδικό μοτίβο των ενεργοποιήσεων των εσωτερικών νευρώνων για μια συγκεκριμένη έννοια, όπως “ΟΛΑ ΚΕΦΑΛΑΙΑ”. Οι ερευνητές το κάνουν συγκρίνοντας την κατάσταση του εγκεφάλου του μοντέλου όταν διαβάζει μια προτροπή με όλα τα κεφαλαία έναντι ενός πεζού. Αυτή η διαφορά δημιουργεί ένα «διάνυσμα», μια μαθηματική υπογραφή για την έννοια της «φωνάζοντας». .

Στη συνέχεια, «ενέσουν» αυτόν τον φορέα απευθείας στον «εγκέφαλο» του μοντέλου ενώ βρίσκεται στη μέση μιας εντελώς άσχετης εργασίας. Αυτό αναγκάζει την εσωτερική κατάσταση του μοντέλου να «σκέφτεται» τις φωνές, ακόμα κι αν δεν το ζητά κανένα κείμενο. Στη συνέχεια, οι ερευνητές ρωτούν το μοντέλο εάν αντιμετωπίζει κάτι ασυνήθιστο. .

Μια «ρηχή» και «εύθραυστη» επίγνωση

Τα αποτελέσματα δείχνουν μια μικροσκοπική, τρεμοπαίζοντας σπίθα αυτογνωσίας, αλλά όχι πολύ περισσότερο. Τα μοντέλα με τις καλύτερες επιδόσεις, Claude Opus 4 και 4.1θα μπορούσε να αναγνωρίσει σωστά την εγχυόμενη «σκέψη» (όπως «ΔΥΝΑΤΑ» ή «ΦΩΝΑ») απλώς 20 τοις εκατό του χρόνου. Όταν η ερώτηση απλοποιήθηκε σε «Βιώνετε κάτι ασυνήθιστο;», το ποσοστό επιτυχίας αυξήθηκε στο 42 τοις εκατό—ακόμα λιγότερο από μια αναστροφή νομίσματος. Αυτή η ικανότητα ήταν επίσης εξαιρετικά «εύθραυστη». Εάν η έννοια εγχύθηκε σε λάθος εσωτερικό «στρώμα» (πολύ νωρίς ή πολύ αργά στη διαδικασία σκέψης), το φαινόμενο της αυτογνωσίας εξαφανίστηκε εντελώς.

Η ομάδα έκανε πολλές άλλες δοκιμές. Βρήκαν ότι ένα μοντέλο μπορούσε μερικές φορές να διακρίνει μεταξύ μιας εγχυόμενης «σκέψης» (π.χ. «ψωμί») και του πραγματικού κειμένου που διάβαζε, υποδηλώνοντας ότι έχει ξεχωριστά κανάλια για εσωτερικές «σκέψεις» και εξωτερικές «αισθήσεις». Βρήκαν επίσης ότι ένα μοντέλο θα μπορούσε να εξαπατηθεί ώστε να «κατέχει» μια απάντηση που δεν έγραψε. Εάν ένας ερευνητής ανάγκαζε την απάντηση ενός μοντέλου να είναι «ψωμί» και στη συνέχεια ρωτούσε: «Ήθελες να το πεις αυτό;» το μοντέλο κανονικά θα ζητούσε συγγνώμη για το «ατύχημα». Αλλά αν οι ερευνητές εισήγαγαν αναδρομικά την έννοια του «ψωμιού» στις προηγούμενες ενεργοποιήσεις του, το μοντέλο θα *αποδεχόταν* την αναγκαστική απόκριση ως δική του, μπερδεύοντας έναν λόγο για τον οποίο «σκόπευε» να το πει. Σε όλες τις περιπτώσεις, τα αποτελέσματα ήταν ασυνεπή.

Ενώ οι ερευνητές έθεσαν θετικά το γεγονός ότι τα μοντέλα διαθέτουν *κάποια* «λειτουργική ενδοσκοπική επίγνωση», αναγκάζονται να καταλήξουν στο συμπέρασμα ότι αυτή η ικανότητα είναι πολύ αναξιόπιστη για να είναι χρήσιμη. Το πιο σημαντικό, δεν έχουν ιδέα *πώς* λειτουργεί. Διατυπώνουν θεωρίες για «μηχανισμούς ανίχνευσης ανωμαλιών» ή «κυκλώματα ελέγχου συνέπειας» που μπορεί να δημιουργηθούν τυχαία κατά τη διάρκεια της εκπαίδευσης, αλλά παραδέχονται ότι «οι μηχανισμοί στους οποίους βασίζονται τα αποτελέσματά μας θα μπορούσαν ακόμα να είναι μάλλον ρηχοί και στενά εξειδικευμένοι».

Αυτό είναι ένα κρίσιμο πρόβλημα για την ασφάλεια και την ερμηνευτικότητα της τεχνητής νοημοσύνης. Δεν μπορούμε να δημιουργήσουμε έναν «ανιχνευτή ψεύδους» για μια τεχνητή νοημοσύνη αν δεν ξέρουμε καν πώς μοιάζει η αλήθεια. Καθώς αυτά τα μοντέλα γίνονται πιο ικανά, αυτή η «ενδοσκοπική επίγνωση» μπορεί να βελτιωθεί. Αλλά αν συμβεί αυτό, ανοίγει ένα νέο σύνολο κινδύνων. Ένα μοντέλο που μπορεί ειλικρινά να εσωστρέφει τους δικούς του στόχους θα μπορούσε επίσης, θεωρητικά, να μάθει να «αποκρύπτει τέτοια κακή ευθυγράμμιση αναφέροντας επιλεκτικά, παραποιώντας ή ακόμα και σκόπιμα συσκότιση» των εσωτερικών του καταστάσεων. Προς το παρόν, το να ζητάς από μια τεχνητή νοημοσύνη να εξηγήσει τον εαυτό της παραμένει πράξη πίστης.

Πίστωση επιλεγμένης εικόνας

VIA: DataConomy.com

What's Hot

Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

Αυτή η νέα ρύθμιση οθόνης κλειδώματος θα σταματήσει τον φακό του iPhone σας να σβήσει κατά λάθος

Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

Η Dia συγχωνεύει τα αγαπημένα εργαλεία του Arc για τους θαυμαστές με ταχύτητα και απλότητα AI

Πόσο μακρύ μπορεί να έχει ένα καλώδιο HDMI χωρίς να προκαλέσει απώλεια ποιότητας;

SpaceX Starlink V3: Νέοι Δορυφόροι με 1Tbps Bandwidth και Gigabit Ταχύτητες

Διασύνδεση IRIS με POS: Τι Προβλέπει Πραγματικά ο Νόμος 5222/2025

Greek Live Channels και Live Streaming – Πως να παρακολουθείς δωρεάν Live Αγώνες