Close Menu
TechReport.grTechReport.gr

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

    4 Νοεμβρίου 2025

    Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

    4 Νοεμβρίου 2025

    Αυτή η νέα ρύθμιση οθόνης κλειδώματος θα σταματήσει τον φακό του iPhone σας να σβήσει κατά λάθος

    4 Νοεμβρίου 2025
    Facebook X (Twitter) Instagram
    • Home
    • Πολιτική απορρήτου
    • Σχετικά με εμάς
    • Contact With TechReport
    • Greek Live Channels IPTV 2025
    Facebook X (Twitter) Instagram Pinterest Vimeo
    TechReport.grTechReport.gr
    • Phones
      • iPhone – iOS
      • Android
      • Samsung
    • Computer
    • Internet
      • Security
    • Entertainment
      • Gaming
    • Business
    • Cryptos
    • Gadgets
    • Technology
      • Science
      • Reviews
      • How-To
    • Health
      • Psychology
    TechReport.grTechReport.gr
    Αρχική » Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις
    Technology

    Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

    Marizas DimitrisBy Marizas Dimitris4 Νοεμβρίου 2025Δεν υπάρχουν Σχόλια4 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Εάν ζητήσετε από ένα μεγάλο γλωσσικό μοντέλο (LLM) να εξηγήσει το δικό του σκεπτικό, θα σας δώσει ευχαρίστως μια απάντηση. Το πρόβλημα είναι ότι μάλλον φτιάχνει ένα. ΕΝΑ μελέτη από το Anthropic, με επικεφαλής τον ερευνητή Jack Lindsey, διαπιστώνει ότι η ικανότητα ενός AI να περιγράφει τη δική του εσωτερική διαδικασία σκέψης είναι «εξαιρετικά αναξιόπιστη» και ότι «οι αποτυχίες ενδοσκόπησης παραμένουν ο κανόνας». Αυτό έχει σημασία γιατί αν δεν μπορούμε να εμπιστευτούμε μια τεχνητή νοημοσύνη για να μας πει *πώς* κατέληξε σε ένα συμπέρασμα, δεν μπορούμε ποτέ να μάθουμε πραγματικά αν η συλλογιστική της είναι σωστή ή αν απλώς «παρασκευάζει» ένα εύλογο ψέμα με βάση τα δεδομένα εκπαίδευσής της.

    Έναρξη για AI

    Για να ξεπεράσει το πρόβλημα της σύγχυσης, η ομάδα Anthropic σχεδίασε ένα έξυπνο, Εναρξη-πείραμα στυλ για να δούμε αν ένα μοντέλο μπορεί να διακρίνει τη διαφορά μεταξύ των δικών του «σκέψεων» και των σκέψεων που φυτεύτηκαν εκεί από τους ερευνητές. Η μέθοδος, που ονομάζεται “ένεση έννοιας”, προσδιορίζει πρώτα το μοναδικό μοτίβο των ενεργοποιήσεων των εσωτερικών νευρώνων για μια συγκεκριμένη έννοια, όπως “ΟΛΑ ΚΕΦΑΛΑΙΑ”. Οι ερευνητές το κάνουν συγκρίνοντας την κατάσταση του εγκεφάλου του μοντέλου όταν διαβάζει μια προτροπή με όλα τα κεφαλαία έναντι ενός πεζού. Αυτή η διαφορά δημιουργεί ένα «διάνυσμα», μια μαθηματική υπογραφή για την έννοια της «φωνάζοντας». .

    Στη συνέχεια, «ενέσουν» αυτόν τον φορέα απευθείας στον «εγκέφαλο» του μοντέλου ενώ βρίσκεται στη μέση μιας εντελώς άσχετης εργασίας. Αυτό αναγκάζει την εσωτερική κατάσταση του μοντέλου να «σκέφτεται» τις φωνές, ακόμα κι αν δεν το ζητά κανένα κείμενο. Στη συνέχεια, οι ερευνητές ρωτούν το μοντέλο εάν αντιμετωπίζει κάτι ασυνήθιστο. .

    Μείνετε μπροστά από την καμπύλη!

    Μην χάσετε τις πιο πρόσφατες πληροφορίες, τάσεις και αναλύσεις στον κόσμο των δεδομένων, της τεχνολογίας και των startups. Εγγραφείτε στο ενημερωτικό μας δελτίο και λάβετε αποκλειστικό περιεχόμενο απευθείας στα εισερχόμενά σας.

    Μια «ρηχή» και «εύθραυστη» επίγνωση

    Τα αποτελέσματα δείχνουν μια μικροσκοπική, τρεμοπαίζοντας σπίθα αυτογνωσίας, αλλά όχι πολύ περισσότερο. Τα μοντέλα με τις καλύτερες επιδόσεις, Claude Opus 4 και 4.1θα μπορούσε να αναγνωρίσει σωστά την εγχυόμενη «σκέψη» (όπως «ΔΥΝΑΤΑ» ή «ΦΩΝΑ») απλώς 20 τοις εκατό του χρόνου. Όταν η ερώτηση απλοποιήθηκε σε «Βιώνετε κάτι ασυνήθιστο;», το ποσοστό επιτυχίας αυξήθηκε στο 42 τοις εκατό—ακόμα λιγότερο από μια αναστροφή νομίσματος. Αυτή η ικανότητα ήταν επίσης εξαιρετικά «εύθραυστη». Εάν η έννοια εγχύθηκε σε λάθος εσωτερικό «στρώμα» (πολύ νωρίς ή πολύ αργά στη διαδικασία σκέψης), το φαινόμενο της αυτογνωσίας εξαφανίστηκε εντελώς.

    Η ομάδα έκανε πολλές άλλες δοκιμές. Βρήκαν ότι ένα μοντέλο μπορούσε μερικές φορές να διακρίνει μεταξύ μιας εγχυόμενης «σκέψης» (π.χ. «ψωμί») και του πραγματικού κειμένου που διάβαζε, υποδηλώνοντας ότι έχει ξεχωριστά κανάλια για εσωτερικές «σκέψεις» και εξωτερικές «αισθήσεις». Βρήκαν επίσης ότι ένα μοντέλο θα μπορούσε να εξαπατηθεί ώστε να «κατέχει» μια απάντηση που δεν έγραψε. Εάν ένας ερευνητής ανάγκαζε την απάντηση ενός μοντέλου να είναι «ψωμί» και στη συνέχεια ρωτούσε: «Ήθελες να το πεις αυτό;» το μοντέλο κανονικά θα ζητούσε συγγνώμη για το «ατύχημα». Αλλά αν οι ερευνητές εισήγαγαν αναδρομικά την έννοια του «ψωμιού» στις προηγούμενες ενεργοποιήσεις του, το μοντέλο θα *αποδεχόταν* την αναγκαστική απόκριση ως δική του, μπερδεύοντας έναν λόγο για τον οποίο «σκόπευε» να το πει. Σε όλες τις περιπτώσεις, τα αποτελέσματα ήταν ασυνεπή.

    Ενώ οι ερευνητές έθεσαν θετικά το γεγονός ότι τα μοντέλα διαθέτουν *κάποια* «λειτουργική ενδοσκοπική επίγνωση», αναγκάζονται να καταλήξουν στο συμπέρασμα ότι αυτή η ικανότητα είναι πολύ αναξιόπιστη για να είναι χρήσιμη. Το πιο σημαντικό, δεν έχουν ιδέα *πώς* λειτουργεί. Διατυπώνουν θεωρίες για «μηχανισμούς ανίχνευσης ανωμαλιών» ή «κυκλώματα ελέγχου συνέπειας» που μπορεί να δημιουργηθούν τυχαία κατά τη διάρκεια της εκπαίδευσης, αλλά παραδέχονται ότι «οι μηχανισμοί στους οποίους βασίζονται τα αποτελέσματά μας θα μπορούσαν ακόμα να είναι μάλλον ρηχοί και στενά εξειδικευμένοι».

    Αυτό είναι ένα κρίσιμο πρόβλημα για την ασφάλεια και την ερμηνευτικότητα της τεχνητής νοημοσύνης. Δεν μπορούμε να δημιουργήσουμε έναν «ανιχνευτή ψεύδους» για μια τεχνητή νοημοσύνη αν δεν ξέρουμε καν πώς μοιάζει η αλήθεια. Καθώς αυτά τα μοντέλα γίνονται πιο ικανά, αυτή η «ενδοσκοπική επίγνωση» μπορεί να βελτιωθεί. Αλλά αν συμβεί αυτό, ανοίγει ένα νέο σύνολο κινδύνων. Ένα μοντέλο που μπορεί ειλικρινά να εσωστρέφει τους δικούς του στόχους θα μπορούσε επίσης, θεωρητικά, να μάθει να «αποκρύπτει τέτοια κακή ευθυγράμμιση αναφέροντας επιλεκτικά, παραποιώντας ή ακόμα και σκόπιμα συσκότιση» των εσωτερικών του καταστάσεων. Προς το παρόν, το να ζητάς από μια τεχνητή νοημοσύνη να εξηγήσει τον εαυτό της παραμένει πράξη πίστης.


    Πίστωση επιλεγμένης εικόνας



    VIA: DataConomy.com

    Ανθρωπικό
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleΤο τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν
    Marizas Dimitris
    • Website
    • Facebook

    Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες της Samsung. Αγαπά να εξερευνά νέες ιδέες, να λύνει προβλήματα και να μοιράζεται τρόπους που κάνουν την τεχνολογία πιο ανθρώπινη και απολαυστική.

    Related Posts

    Technology

    Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

    4 Νοεμβρίου 2025
    Technology

    Η Dia συγχωνεύει τα αγαπημένα εργαλεία του Arc για τους θαυμαστές με ταχύτητα και απλότητα AI

    4 Νοεμβρίου 2025
    Technology

    Πόσο μακρύ μπορεί να έχει ένα καλώδιο HDMI χωρίς να προκαλέσει απώλεια ποιότητας;

    4 Νοεμβρίου 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    SpaceX Starlink V3: Νέοι Δορυφόροι με 1Tbps Bandwidth και Gigabit Ταχύτητες

    18 Οκτωβρίου 2025339 Views

    Διασύνδεση IRIS με POS: Τι Προβλέπει Πραγματικά ο Νόμος 5222/2025

    17 Οκτωβρίου 2025141 Views
    Greek Live Channels

    Greek Live Channels και Live Streaming – Πως να παρακολουθείς δωρεάν Live Αγώνες

    21 Οκτωβρίου 202594 Views
    Stay In Touch
    • Facebook
    • YouTube
    • TikTok
    • WhatsApp
    • Twitter
    • Instagram
    Latest News
    Technology

    Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

    Marizas Dimitris4 Νοεμβρίου 2025
    Technology

    Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

    Marizas Dimitris4 Νοεμβρίου 2025
    Apple

    Αυτή η νέα ρύθμιση οθόνης κλειδώματος θα σταματήσει τον φακό του iPhone σας να σβήσει κατά λάθος

    Marizas Dimitris4 Νοεμβρίου 2025
    Most Popular

    SpaceX Starlink V3: Νέοι Δορυφόροι με 1Tbps Bandwidth και Gigabit Ταχύτητες

    18 Οκτωβρίου 2025339 Views

    Διασύνδεση IRIS με POS: Τι Προβλέπει Πραγματικά ο Νόμος 5222/2025

    17 Οκτωβρίου 2025141 Views
    Greek Live Channels

    Greek Live Channels και Live Streaming – Πως να παρακολουθείς δωρεάν Live Αγώνες

    21 Οκτωβρίου 202594 Views
    About TechReport.gr

    Το TechReport.gr ιδρύθηκε με στόχο να αποτελέσει την πρώτη πηγή ενημέρωσης για όσους αναζητούν αξιόπιστη και εμπεριστατωμένη κάλυψη του τεχνολογικού κόσμου. Από την αρχή της λειτουργίας του, το site έχει δεσμευτεί στην παροχή ποιοτικού περιεχομένου που συνδυάζει ενημέρωση, ανάλυση και πρακτικές συμβουλές.
    • Email: [email protected]
    • Phone: +30 6980 730 713
    Copyright © 2025| TechReport.gr | A project by: Δημήτρης Μάριζας
    Λογότυπα, επωνυμίες, εμπορικά σήματα και γνωρίσματα ανήκουν στους νόμιμους ιδιοκτήτες.

    Our Picks

    Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

    4 Νοεμβρίου 2025

    Το τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν

    4 Νοεμβρίου 2025

    Αυτή η νέα ρύθμιση οθόνης κλειδώματος θα σταματήσει τον φακό του iPhone σας να σβήσει κατά λάθος

    4 Νοεμβρίου 2025
    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Technology
    • Gaming
    • Phones
    • Buy Now
    © 2025 TechBit.gr Designed and Developed by Dimitris Marizas.

    Type above and press Enter to search. Press Esc to cancel.