Close Menu
TechReport.grTechReport.gr
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology

Subscribe to Updates

Get the latest creative news from FooBar about art, design and business.

What's Hot
Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» - Τυπολογίες

Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» – Τυπολογίες

18 Δεκεμβρίου 2025
«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

18 Δεκεμβρίου 2025
«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

18 Δεκεμβρίου 2025
Facebook X (Twitter) Instagram
  • Home
  • Πολιτική απορρήτου
  • Σχετικά με εμάς
  • Contact With TechReport
  • Greek Live Channels IPTV 2025
Facebook X (Twitter) Instagram Pinterest Vimeo
TechReport.grTechReport.gr
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology
TechReport.grTechReport.gr
Αρχική » Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις
Technology

Anthropic μελέτη αποκαλύπτει ότι οι AI δεν μπορούν να εξηγήσουν αξιόπιστα τις δικές τους σκέψεις

Marizas DimitrisBy Marizas Dimitris4 Νοεμβρίου 2025Δεν υπάρχουν Σχόλια4 Mins Read
Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
Share
Facebook Twitter LinkedIn Pinterest Tumblr Telegram WhatsApp Email


Εάν ζητήσετε από ένα μεγάλο γλωσσικό μοντέλο (LLM) να εξηγήσει το δικό του σκεπτικό, θα σας δώσει ευχαρίστως μια απάντηση. Το πρόβλημα είναι ότι μάλλον φτιάχνει ένα. ΕΝΑ μελέτη από το Anthropic, με επικεφαλής τον ερευνητή Jack Lindsey, διαπιστώνει ότι η ικανότητα ενός AI να περιγράφει τη δική του εσωτερική διαδικασία σκέψης είναι «εξαιρετικά αναξιόπιστη» και ότι «οι αποτυχίες ενδοσκόπησης παραμένουν ο κανόνας». Αυτό έχει σημασία γιατί αν δεν μπορούμε να εμπιστευτούμε μια τεχνητή νοημοσύνη για να μας πει *πώς* κατέληξε σε ένα συμπέρασμα, δεν μπορούμε ποτέ να μάθουμε πραγματικά αν η συλλογιστική της είναι σωστή ή αν απλώς «παρασκευάζει» ένα εύλογο ψέμα με βάση τα δεδομένα εκπαίδευσής της.

Έναρξη για AI

Για να ξεπεράσει το πρόβλημα της σύγχυσης, η ομάδα Anthropic σχεδίασε ένα έξυπνο, Εναρξη-πείραμα στυλ για να δούμε αν ένα μοντέλο μπορεί να διακρίνει τη διαφορά μεταξύ των δικών του «σκέψεων» και των σκέψεων που φυτεύτηκαν εκεί από τους ερευνητές. Η μέθοδος, που ονομάζεται “ένεση έννοιας”, προσδιορίζει πρώτα το μοναδικό μοτίβο των ενεργοποιήσεων των εσωτερικών νευρώνων για μια συγκεκριμένη έννοια, όπως “ΟΛΑ ΚΕΦΑΛΑΙΑ”. Οι ερευνητές το κάνουν συγκρίνοντας την κατάσταση του εγκεφάλου του μοντέλου όταν διαβάζει μια προτροπή με όλα τα κεφαλαία έναντι ενός πεζού. Αυτή η διαφορά δημιουργεί ένα «διάνυσμα», μια μαθηματική υπογραφή για την έννοια της «φωνάζοντας». .

Στη συνέχεια, «ενέσουν» αυτόν τον φορέα απευθείας στον «εγκέφαλο» του μοντέλου ενώ βρίσκεται στη μέση μιας εντελώς άσχετης εργασίας. Αυτό αναγκάζει την εσωτερική κατάσταση του μοντέλου να «σκέφτεται» τις φωνές, ακόμα κι αν δεν το ζητά κανένα κείμενο. Στη συνέχεια, οι ερευνητές ρωτούν το μοντέλο εάν αντιμετωπίζει κάτι ασυνήθιστο. .

Μείνετε μπροστά από την καμπύλη!

Μην χάσετε τις πιο πρόσφατες πληροφορίες, τάσεις και αναλύσεις στον κόσμο των δεδομένων, της τεχνολογίας και των startups. Εγγραφείτε στο ενημερωτικό μας δελτίο και λάβετε αποκλειστικό περιεχόμενο απευθείας στα εισερχόμενά σας.

Μια «ρηχή» και «εύθραυστη» επίγνωση

Τα αποτελέσματα δείχνουν μια μικροσκοπική, τρεμοπαίζοντας σπίθα αυτογνωσίας, αλλά όχι πολύ περισσότερο. Τα μοντέλα με τις καλύτερες επιδόσεις, Claude Opus 4 και 4.1θα μπορούσε να αναγνωρίσει σωστά την εγχυόμενη «σκέψη» (όπως «ΔΥΝΑΤΑ» ή «ΦΩΝΑ») απλώς 20 τοις εκατό του χρόνου. Όταν η ερώτηση απλοποιήθηκε σε «Βιώνετε κάτι ασυνήθιστο;», το ποσοστό επιτυχίας αυξήθηκε στο 42 τοις εκατό—ακόμα λιγότερο από μια αναστροφή νομίσματος. Αυτή η ικανότητα ήταν επίσης εξαιρετικά «εύθραυστη». Εάν η έννοια εγχύθηκε σε λάθος εσωτερικό «στρώμα» (πολύ νωρίς ή πολύ αργά στη διαδικασία σκέψης), το φαινόμενο της αυτογνωσίας εξαφανίστηκε εντελώς.

Η ομάδα έκανε πολλές άλλες δοκιμές. Βρήκαν ότι ένα μοντέλο μπορούσε μερικές φορές να διακρίνει μεταξύ μιας εγχυόμενης «σκέψης» (π.χ. «ψωμί») και του πραγματικού κειμένου που διάβαζε, υποδηλώνοντας ότι έχει ξεχωριστά κανάλια για εσωτερικές «σκέψεις» και εξωτερικές «αισθήσεις». Βρήκαν επίσης ότι ένα μοντέλο θα μπορούσε να εξαπατηθεί ώστε να «κατέχει» μια απάντηση που δεν έγραψε. Εάν ένας ερευνητής ανάγκαζε την απάντηση ενός μοντέλου να είναι «ψωμί» και στη συνέχεια ρωτούσε: «Ήθελες να το πεις αυτό;» το μοντέλο κανονικά θα ζητούσε συγγνώμη για το «ατύχημα». Αλλά αν οι ερευνητές εισήγαγαν αναδρομικά την έννοια του «ψωμιού» στις προηγούμενες ενεργοποιήσεις του, το μοντέλο θα *αποδεχόταν* την αναγκαστική απόκριση ως δική του, μπερδεύοντας έναν λόγο για τον οποίο «σκόπευε» να το πει. Σε όλες τις περιπτώσεις, τα αποτελέσματα ήταν ασυνεπή.

Ενώ οι ερευνητές έθεσαν θετικά το γεγονός ότι τα μοντέλα διαθέτουν *κάποια* «λειτουργική ενδοσκοπική επίγνωση», αναγκάζονται να καταλήξουν στο συμπέρασμα ότι αυτή η ικανότητα είναι πολύ αναξιόπιστη για να είναι χρήσιμη. Το πιο σημαντικό, δεν έχουν ιδέα *πώς* λειτουργεί. Διατυπώνουν θεωρίες για «μηχανισμούς ανίχνευσης ανωμαλιών» ή «κυκλώματα ελέγχου συνέπειας» που μπορεί να δημιουργηθούν τυχαία κατά τη διάρκεια της εκπαίδευσης, αλλά παραδέχονται ότι «οι μηχανισμοί στους οποίους βασίζονται τα αποτελέσματά μας θα μπορούσαν ακόμα να είναι μάλλον ρηχοί και στενά εξειδικευμένοι».

Αυτό είναι ένα κρίσιμο πρόβλημα για την ασφάλεια και την ερμηνευτικότητα της τεχνητής νοημοσύνης. Δεν μπορούμε να δημιουργήσουμε έναν «ανιχνευτή ψεύδους» για μια τεχνητή νοημοσύνη αν δεν ξέρουμε καν πώς μοιάζει η αλήθεια. Καθώς αυτά τα μοντέλα γίνονται πιο ικανά, αυτή η «ενδοσκοπική επίγνωση» μπορεί να βελτιωθεί. Αλλά αν συμβεί αυτό, ανοίγει ένα νέο σύνολο κινδύνων. Ένα μοντέλο που μπορεί ειλικρινά να εσωστρέφει τους δικούς του στόχους θα μπορούσε επίσης, θεωρητικά, να μάθει να «αποκρύπτει τέτοια κακή ευθυγράμμιση αναφέροντας επιλεκτικά, παραποιώντας ή ακόμα και σκόπιμα συσκότιση» των εσωτερικών του καταστάσεων. Προς το παρόν, το να ζητάς από μια τεχνητή νοημοσύνη να εξηγήσει τον εαυτό της παραμένει πράξη πίστης.


Πίστωση επιλεγμένης εικόνας



VIA: DataConomy.com

Related Posts


Το νέο Haiku 4.5 της Anthropic αντιπαλεύει το Sonnet 4 στο ένα τρίτο της τιμής
Technology

Το AWS re:Invent ήταν ένα all-in pitch για AI. Οι πελάτες μπορεί να μην είναι έτοιμοι.
Technology

Το Anthropic φέρνει αυτόματη μνήμη στους χρήστες Claude Pro και Max
iPhone - iOS
Ανθρωπικό
Share. Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram WhatsApp Email
Previous ArticleΤο τσιπ Exynos 2600 του Galaxy S26 ταιριάζει με την απόδοση του M5 MacBook Pro σε σημεία αναφοράς που διέρρευσαν
Next Article 10 ρυθμίσεις που καταστρέφουν την εμπειρία σας στο iPhone 17
Marizas Dimitris
  • Website
  • Facebook

Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες. Λατρεύει να εξερευνά νέες ιδέες, να επιλύει σύνθετα προβλήματα και να βρίσκει τρόπους ώστε η τεχνολογία να γίνεται πιο ανθρώπινη, απολαυστική και προσιτή για όλους. Στον ελεύθερο χρόνο του ασχολείται με το σκάκι και το poker, απολαμβάνοντας την στρατηγική και τη δημιουργική σκέψη που απαιτούν.

Related Posts

«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»
Technology

«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

18 Δεκεμβρίου 2025
«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»
Technology

«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

18 Δεκεμβρίου 2025
Οι ιδιοκτήτες Rivian μπορούν να χρησιμοποιήσουν τα τηλέφωνά τους Samsung ως ψηφιακό κλειδί αυτοκινήτου
Samsung

Οι ιδιοκτήτες Rivian μπορούν να χρησιμοποιήσουν τα τηλέφωνά τους Samsung ως ψηφιακό κλειδί αυτοκινήτου

18 Δεκεμβρίου 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Οδηγός για το Πρόγραμμα «Ψηφιακές Συναλλαγές Β’» (2025) – Όσα πρέπει να γνωρίζουμε

13 Νοεμβρίου 20251.156 Views

Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

30 Οκτωβρίου 2025570 Views
Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

12 Νοεμβρίου 2025468 Views
Stay In Touch
  • Facebook
  • YouTube
  • TikTok
  • WhatsApp
  • Twitter
  • Instagram
Latest News
Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» - Τυπολογίες Entertainment

Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» – Τυπολογίες

Marizas Dimitris18 Δεκεμβρίου 2025
«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;» Technology

«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

Marizas Dimitris18 Δεκεμβρίου 2025
«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!» Technology

«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

Marizas Dimitris18 Δεκεμβρίου 2025
Most Popular

Οδηγός για το Πρόγραμμα «Ψηφιακές Συναλλαγές Β’» (2025) – Όσα πρέπει να γνωρίζουμε

13 Νοεμβρίου 20251.156 Views

Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

30 Οκτωβρίου 2025570 Views
Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

12 Νοεμβρίου 2025468 Views
About TechReport.gr

Το TechReport.gr ιδρύθηκε με στόχο να αποτελέσει την πρώτη πηγή ενημέρωσης για όσους αναζητούν αξιόπιστη και εμπεριστατωμένη κάλυψη του τεχνολογικού κόσμου. Από την αρχή της λειτουργίας του, το site έχει δεσμευτεί στην παροχή ποιοτικού περιεχομένου που συνδυάζει ενημέρωση, ανάλυση και πρακτικές συμβουλές.
• Email: [email protected]
• Phone: +30 6980 730 713
Copyright © 2025| TechReport.gr | A project by: Δημήτρης Μάριζας
Λογότυπα, επωνυμίες, εμπορικά σήματα και γνωρίσματα ανήκουν στους νόμιμους ιδιοκτήτες.

Our Picks
Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» - Τυπολογίες

Σαββίδης: «Δεν το έχω καν στο μυαλό μου» να πουλήσω το Open! «Δεν τα έχω πει ακόμα όλα στην Ελλάδα» – Τυπολογίες

18 Δεκεμβρίου 2025
«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

«Αναστάτωση με το Samsung Galaxy Z Trifold: Ξεπουλήθηκε ξανά, αλλά πόσες πραγματικά είχαν μείνει;»

18 Δεκεμβρίου 2025
«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

«Προετοιμαστείτε! Οι κάρτες γραφικών εκτοξεύουν τις τιμές τους το 2026!»

18 Δεκεμβρίου 2025
Facebook X (Twitter) Instagram Pinterest
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology
© 2025 TechReport.gr Designed and Developed by Dimitris Marizas.

Type above and press Enter to search. Press Esc to cancel.

Ad Blocker Enabled!
Ad Blocker Enabled!
Our website is made possible by displaying online advertisements to our visitors. Please support us by disabling your Ad Blocker.