Close Menu
TechReport.grTechReport.gr
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology

Subscribe to Updates

Get the latest creative news from FooBar about art, design and business.

What's Hot
«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

28 Δεκεμβρίου 2025
Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

27 Δεκεμβρίου 2025
Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

27 Δεκεμβρίου 2025
Facebook X (Twitter) Instagram
  • Home
  • Πολιτική απορρήτου
  • Σχετικά με εμάς
  • Contact With TechReport
  • Greek Live Channels IPTV 2025
Facebook X (Twitter) Instagram Pinterest Vimeo
TechReport.grTechReport.gr
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology
TechReport.grTechReport.gr
Αρχική » Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου
Technology

Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου

Marizas DimitrisBy Marizas Dimitris12 Νοεμβρίου 2025Δεν υπάρχουν Σχόλια6 Mins Read
Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
Share
Facebook Twitter LinkedIn Pinterest Tumblr Telegram WhatsApp Email


Μια νέα μελέτη αποκαλύπτει ότι οι μεθοδολογίες για την αξιολόγηση συστημάτων τεχνητής νοημοσύνης συχνά υπερεκτιμούν την απόδοση και δεν έχουν επιστημονική αυστηρότητα, εγείροντας ερωτήματα σχετικά με πολλά αποτελέσματα αναφοράς.

Ερευνητές στο Ινστιτούτο Διαδικτύου της Οξφόρδης, που συνεργάζονται με πάνω από τρεις δωδεκάδες ιδρύματαεξετάστηκε 445 κορυφαίες δοκιμές AIγνωστά ως σημεία αναφοράς. Αυτά τα σημεία αναφοράς μετρούν την απόδοση του μοντέλου AI σε διάφορους θεματικούς τομείς.

Οι προγραμματιστές τεχνητής νοημοσύνης χρησιμοποιούν αυτά τα σημεία αναφοράς για να αξιολογήσουν τις δυνατότητες του μοντέλου και να προωθήσουν τεχνικές προόδους. Οι αξιώσεις σχετικά με την απόδοση μηχανικής λογισμικού και την ικανότητα αφηρημένης αιτιολογίας αναφέρονται σε αυτές τις αξιολογήσεις. Η εφημερίδα, που κυκλοφόρησε την Τρίτη, υποδηλώνει ότι αυτές οι θεμελιώδεις δοκιμές μπορεί να είναι αναξιόπιστες.

Μείνετε μπροστά από την καμπύλη!

Μην χάσετε τις πιο πρόσφατες πληροφορίες, τάσεις και αναλύσεις στον κόσμο των δεδομένων, της τεχνολογίας και των startups. Εγγραφείτε στο ενημερωτικό μας δελτίο και λάβετε αποκλειστικό περιεχόμενο απευθείας στα εισερχόμενά σας.

Η μελέτη διαπίστωσε ότι πολλά σημεία αναφοράς κορυφαίας βαθμίδας αποτυγχάνουν να καθορίσουν τους στόχους δοκιμών τους, να επαναχρησιμοποιήσουν δεδομένα και μεθόδους από υπάρχοντα σημεία αναφοράς και σπάνια χρησιμοποιούν αξιόπιστες στατιστικές μεθόδους για τη σύγκριση αποτελεσμάτων μοντέλων.

Ο Adam Mahdi, ανώτερος ερευνητής στο Ινστιτούτο Διαδικτύου της Οξφόρδης και κύριος συγγραφέας, δήλωσε ότι αυτά τα σημεία αναφοράς μπορεί να είναι «ανησυχητικά παραπλανητικά». Ο Mahdi είπε στο NBC News, «Όταν ζητάμε από μοντέλα τεχνητής νοημοσύνης να εκτελέσουν συγκεκριμένες εργασίες, συχνά μετράμε εντελώς διαφορετικές έννοιες ή κατασκευές από αυτές που στοχεύουμε να μετρήσουμε». Ο Andrew Bean, ένας άλλος κύριος συγγραφέας, συμφώνησε ότι «ακόμη και αξιόπιστα σημεία αναφοράς είναι πολύ συχνά τυφλά αξιόπιστα και αξίζουν περισσότερο έλεγχο».

είπε επίσης ο Bean NBC News«Πρέπει να το παίρνετε με λίγο αλάτι όταν ακούτε πράγματα όπως «ένα μοντέλο επιτυγχάνει νοημοσύνη σε επίπεδο διδακτορικού». Δεν είμαστε σίγουροι ότι αυτές οι μετρήσεις γίνονται ιδιαίτερα καλά».

Ορισμένα σημεία αναφοράς που αναλύθηκαν αξιολογούν συγκεκριμένες δεξιότητες, όπως οι ικανότητες στη ρωσική ή την αραβική γλώσσα. Άλλοι μετρούν γενικές ικανότητες όπως η χωρική συλλογιστική και η συνεχής μάθηση.

Κεντρική ανησυχία για τους συγγραφείς ήταν η «εγκυρότητα κατασκευής» ενός σημείου αναφοράς, το οποίο αμφισβητεί εάν ελέγχει με ακρίβεια το πραγματικό φαινόμενο που σκοπεύει να μετρήσει. Για παράδειγμα, ένα σημείο αναφοράς που εξετάζεται στη μελέτη μετρά την απόδοση ενός μοντέλου εννέα διαφορετικές εργασίεςσυμπεριλαμβανομένης της απάντησης σε ερωτήσεις με ναι ή όχι χρησιμοποιώντας πληροφορίες από τη ρωσική Wikipedia, αντί για μια ατελείωτη σειρά ερωτήσεων για τη μέτρηση της ρωσικής επάρκειας.

Περίπου τα μισά από τα εξεταζόμενα σημεία αναφοράς δεν ορίζουν με σαφήνεια τις έννοιες που ισχυρίζονται ότι μετρούν. Αυτό θέτει υπό αμφισβήτηση την ικανότητά τους να παρέχουν χρήσιμες πληροφορίες σχετικά με τα υπό δοκιμή μοντέλα AI.

Η μελέτη υπογραμμίζει το Grade School Math 8K (GSM8K), ένα κοινό σημείο αναφοράς AI για βασικές ερωτήσεις μαθηματικών. Οι βαθμολογικοί πίνακες για το GSM8K αναφέρονται συχνά για να δείξουν τον ισχυρό μαθηματικό συλλογισμό των μοντέλων AI. Η τεκμηρίωση του σημείου αναφοράς δηλώνει ότι είναι «χρήσιμο για τον έλεγχο της άτυπης συλλογιστικής ικανότητας μεγάλων γλωσσικών μοντέλων».

Ωστόσο, ο Mahdi υποστήριξε ότι οι σωστές απαντήσεις σε σημεία αναφοράς όπως το GSM8K δεν υποδεικνύουν απαραίτητα την πραγματική μαθηματική συλλογιστική. Εξήγησε, “Όταν ρωτάς έναν μαθητή της πρώτης δημοτικού τι ισούται με δύο συν πέντε και λέει επτά, ναι, αυτή είναι η σωστή απάντηση. Αλλά μπορείς να συμπεράνεις από αυτό ότι ένας μαθητής της πέμπτης τάξης έχει κατακτήσει τη μαθηματική ή αριθμητική συλλογιστική από το να μπορεί απλώς να προσθέτει αριθμούς; Ίσως, αλλά νομίζω ότι η απάντηση είναι πολύ πιθανό όχι.”

Ο Bean αναγνώρισε ότι η μέτρηση αφηρημένων εννοιών όπως ο συλλογισμός περιλαμβάνει την αξιολόγηση ενός υποσυνόλου εργασιών και αυτή η επιλογή θα είναι εγγενώς ατελής. Δήλωσε, “Υπάρχουν πολλά κινούμενα κομμάτια σε αυτές τις αξιολογήσεις και η ικανοποίησή τους απαιτεί ισορροπία. Αλλά αυτό το έγγραφο απαιτεί δείκτες αναφοράς για να ορίσουν με σαφήνεια τι έχουν σκοπό να μετρήσουν.” Πρόσθεσε, «Με έννοιες όπως η ακίνδυνη ή η συλλογιστική, οι άνθρωποι συχνά απλώς ρίχνουν τη λέξη για να διαλέξουν κάτι που βρίσκεται κοντά σε αυτήν την κατηγορία που μπορούν να μετρήσουν και να πουν, «Τέλεια, τώρα το μέτρησα».

Το νέο χαρτί προσφέρει οκτώ συστάσεις και μια λίστα ελέγχου για τη συστηματοποίηση των κριτηρίων αναφοράς και την ενίσχυση της διαφάνειας και της εμπιστοσύνης. Οι προτεινόμενες βελτιώσεις περιλαμβάνουν τον καθορισμό του εύρους της αξιολογούμενης ενέργειας, την κατασκευή μπαταριών εργασιών που αντιπροσωπεύουν καλύτερα τις συνολικές ικανότητες και τη σύγκριση της απόδοσης του μοντέλου με χρήση στατιστικής ανάλυσης.

Ο Νίκολα Γιούρκοβιτς, μέλος του τεχνικού προσωπικού του ερευνητικού κέντρου METR AI, εξήρε τις συνεισφορές της εφημερίδας. Ο Jurkovic είπε στο NBC News, “Χρειαζόμαστε περισσότερη αυστηρότητα εάν θέλουμε να μπορούμε να ερμηνεύσουμε τα αποτελέσματα των σημείων αναφοράς AI. Αυτή η λίστα ελέγχου είναι ένα σημείο εκκίνησης για τους ερευνητές να ελέγξουν εάν το σημείο αναφοράς τους θα είναι διορατικό”.

Το έγγραφο της Τρίτης βασίζεται σε προηγούμενη έρευνα που εντόπισε ελαττώματα σε πολλά σημεία αναφοράς AI. Ερευνητές από την εταιρεία AI Anthropic υποστήριξαν την αύξηση των στατιστικών δοκιμών πέρυσι. Αυτή η δοκιμή θα καθόριζε εάν η απόδοση ενός μοντέλου σε ένα σημείο αναφοράς αντανακλούσε πραγματικές διαφορές δυνατοτήτων ή ήταν ένα «τυχερό αποτέλεσμα» δεδομένων των εργασιών και των ερωτήσεων.

Πολλές ερευνητικές ομάδες πρότειναν πρόσφατα νέες σειρές δοκιμών για τη βελτίωση της χρησιμότητας και της ακρίβειας των κριτηρίων αναφοράς. Αυτές οι νέες δοκιμές μετρούν καλύτερα την απόδοση των μοντέλων στον πραγματικό κόσμο σε οικονομικά συναφείς εργασίες.

Στα τέλη Σεπτεμβρίου, το OpenAI ξεκίνησε μια νέα σειρά δοκιμών για την αξιολόγηση της απόδοσης της τεχνητής νοημοσύνης 44 διαφορετικά επαγγέλματα. Αυτές οι δοκιμές στοχεύουν στη σταθεροποίηση των ισχυρισμών ικανότητας τεχνητής νοημοσύνης σε σενάρια πραγματικού κόσμου. Παραδείγματα περιλαμβάνουν την ικανότητα του AI να διορθώνει ασυνέπειες στα τιμολόγια πελατών στο Excel για ρόλο αναλυτή πωλήσεων ή να δημιουργεί ένα πλήρες πρόγραμμα παραγωγής για μια λήψη βίντεο 60 δευτερολέπτων για έναν ρόλο παραγωγού βίντεο.

Ο Dan Hendrycks, διευθυντής του Κέντρου για την Ασφάλεια AI, και μια ερευνητική ομάδα πρόσφατα κυκλοφόρησαν ένα παρόμοιο σημείο αναφοράς στον πραγματικό κόσμο. Αυτό το σημείο αναφοράς αξιολογεί την απόδοση των συστημάτων AI σε εργασίες που είναι απαραίτητες για την αυτοματοποίηση της απομακρυσμένης εργασίας. Ο Χέντρικς είπε στο NBC News, «Είναι σύνηθες τα συστήματα τεχνητής νοημοσύνης να σημειώνουν υψηλή βαθμολογία σε ένα σημείο αναφοράς, αλλά στην πραγματικότητα να μην επιλύουν τον πραγματικό στόχο του σημείου αναφοράς».

Ο Mahdi κατέληξε στο συμπέρασμα ότι οι ερευνητές και οι προγραμματιστές έχουν πολλούς δρόμους να εξερευνήσουν στην αξιολόγηση κριτηρίων αναφοράς AI. Δήλωσε, «Είμαστε μόλις στην αρχή της επιστημονικής αξιολόγησης των συστημάτων AI».


Πίστωση επιλεγμένης εικόνας



VIA: DataConomy.com

Related Posts


Τα LLM εμφανίζουν διακριτές πολιτιστικές προκαταλήψεις στα αγγλικά έναντι των κινεζικών προτροπών
Technology

Ο Διευθύνων Σύμβουλος της Anthropic προειδοποιεί ότι η αυξανόμενη αυτονομία της τεχνητής νοημοσύνης εγκυμονεί κρίσιμους κινδύνους
Technology

Η Wikipedia λέει στις εταιρείες τεχνητής νοημοσύνης να σταματήσουν το ξύσιμο και να αρχίσουν να πληρώνουν
Technology
news openAI Startups Wikipedia Όλα συμπεριλαμβάνονται Οξφόρδη Σημείο αναφοράς
Share. Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram WhatsApp Email
Previous ArticleBlackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!
Next Article Οι χάκερ οπλίζουν το AppleScript για να παραδώσουν δημιουργικά κακόβουλο λογισμικό macOS Mimic ως ενημερώσεις Zoom/Teams
Marizas Dimitris
  • Website
  • Facebook

Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες. Λατρεύει να εξερευνά νέες ιδέες, να επιλύει σύνθετα προβλήματα και να βρίσκει τρόπους ώστε η τεχνολογία να γίνεται πιο ανθρώπινη, απολαυστική και προσιτή για όλους. Στον ελεύθερο χρόνο του ασχολείται με το σκάκι και το poker, απολαμβάνοντας την στρατηγική και τη δημιουργική σκέψη που απαιτούν.

Related Posts

«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»
Technology

«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

28 Δεκεμβρίου 2025
Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!
Technology

Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

27 Δεκεμβρίου 2025
Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!
Science

Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

27 Δεκεμβρίου 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Οδηγός για το Πρόγραμμα «Ψηφιακές Συναλλαγές Β’» (2025) – Όσα πρέπει να γνωρίζουμε

13 Νοεμβρίου 20251.156 Views

Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

30 Οκτωβρίου 2025570 Views
Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

12 Νοεμβρίου 2025468 Views
Stay In Touch
  • Facebook
  • YouTube
  • TikTok
  • WhatsApp
  • Twitter
  • Instagram
Latest News
«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!» Technology

«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

Marizas Dimitris28 Δεκεμβρίου 2025
Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι! Technology

Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

Marizas Dimitris27 Δεκεμβρίου 2025
Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις! Science

Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

Marizas Dimitris27 Δεκεμβρίου 2025
Most Popular

Οδηγός για το Πρόγραμμα «Ψηφιακές Συναλλαγές Β’» (2025) – Όσα πρέπει να γνωρίζουμε

13 Νοεμβρίου 20251.156 Views

Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

30 Οκτωβρίου 2025570 Views
Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

12 Νοεμβρίου 2025468 Views
About TechReport.gr

Το TechReport.gr ιδρύθηκε με στόχο να αποτελέσει την πρώτη πηγή ενημέρωσης για όσους αναζητούν αξιόπιστη και εμπεριστατωμένη κάλυψη του τεχνολογικού κόσμου. Από την αρχή της λειτουργίας του, το site έχει δεσμευτεί στην παροχή ποιοτικού περιεχομένου που συνδυάζει ενημέρωση, ανάλυση και πρακτικές συμβουλές.
• Email: [email protected]
• Phone: +30 6980 730 713
Copyright © 2025| TechReport.gr | A project by: Δημήτρης Μάριζας
Λογότυπα, επωνυμίες, εμπορικά σήματα και γνωρίσματα ανήκουν στους νόμιμους ιδιοκτήτες.

Our Picks
«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

«Σοκαριστικό Σεισμικό Χτύπημα: Τι Συμβαίνει με τις Εγκαταστάσεις της TSMC στην Ταϊβάν!»

28 Δεκεμβρίου 2025
Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

Αποκάλυψη! Ξεκίνησαν οι δοκιμές του One UI 8.5: Είσαι ανάμεσα στις τυχερές συσκευές που θα αναβαθμιστούν; Δες ποια είναι!

27 Δεκεμβρίου 2025
Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

Απίστευτο! Ανακάλυψε σε 10 Δευτερόλεπτα πόσα χρόνια έχεις ακόμα να ζήσεις!

27 Δεκεμβρίου 2025
Facebook X (Twitter) Instagram Pinterest
  • Phones
    • iPhone – iOS
    • Android
    • Samsung
  • Computer
  • Internet
    • Security
  • Entertainment
    • Gaming
  • Business
  • Economics
    • Cryptos
  • Gadgets
  • Technology
    • Science
    • Reviews
    • How-To
  • Health
    • Psychology
© 2025 TechReport.gr Designed and Developed by Dimitris Marizas.

Type above and press Enter to search. Press Esc to cancel.

Ad Blocker Enabled!
Ad Blocker Enabled!
Our website is made possible by displaying online advertisements to our visitors. Please support us by disabling your Ad Blocker.