Close Menu
TechReport.grTechReport.gr

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου

    12 Νοεμβρίου 2025

    Blackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!

    12 Νοεμβρίου 2025

    Η δουλειά της Garmin σε ένα στέμμα φαίνεται αναπόφευκτη, αλλά είναι βέβαιο ότι θα ενοχλήσει τους μεγαλύτερους θαυμαστές της και υπάρχει μόνο ένας τρόπος που πιστεύω ότι θα μπορούσε να λειτουργήσει

    12 Νοεμβρίου 2025
    Facebook X (Twitter) Instagram
    • Home
    • Πολιτική απορρήτου
    • Σχετικά με εμάς
    • Contact With TechReport
    • Greek Live Channels IPTV 2025
    Facebook X (Twitter) Instagram Pinterest Vimeo
    TechReport.grTechReport.gr
    • Phones
      • iPhone – iOS
      • Android
      • Samsung
    • Computer
    • Internet
      • Security
    • Entertainment
      • Gaming
    • Business
    • Cryptos
    • Gadgets
    • Technology
      • Science
      • Reviews
      • How-To
    • Health
      • Psychology
    TechReport.grTechReport.gr
    Αρχική » Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου
    Technology

    Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου

    Marizas DimitrisBy Marizas Dimitris12 Νοεμβρίου 2025Δεν υπάρχουν Σχόλια6 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Μια νέα μελέτη αποκαλύπτει ότι οι μεθοδολογίες για την αξιολόγηση συστημάτων τεχνητής νοημοσύνης συχνά υπερεκτιμούν την απόδοση και δεν έχουν επιστημονική αυστηρότητα, εγείροντας ερωτήματα σχετικά με πολλά αποτελέσματα αναφοράς.

    Ερευνητές στο Ινστιτούτο Διαδικτύου της Οξφόρδης, που συνεργάζονται με πάνω από τρεις δωδεκάδες ιδρύματαεξετάστηκε 445 κορυφαίες δοκιμές AIγνωστά ως σημεία αναφοράς. Αυτά τα σημεία αναφοράς μετρούν την απόδοση του μοντέλου AI σε διάφορους θεματικούς τομείς.

    Οι προγραμματιστές τεχνητής νοημοσύνης χρησιμοποιούν αυτά τα σημεία αναφοράς για να αξιολογήσουν τις δυνατότητες του μοντέλου και να προωθήσουν τεχνικές προόδους. Οι αξιώσεις σχετικά με την απόδοση μηχανικής λογισμικού και την ικανότητα αφηρημένης αιτιολογίας αναφέρονται σε αυτές τις αξιολογήσεις. Η εφημερίδα, που κυκλοφόρησε την Τρίτη, υποδηλώνει ότι αυτές οι θεμελιώδεις δοκιμές μπορεί να είναι αναξιόπιστες.

    Μείνετε μπροστά από την καμπύλη!

    Μην χάσετε τις πιο πρόσφατες πληροφορίες, τάσεις και αναλύσεις στον κόσμο των δεδομένων, της τεχνολογίας και των startups. Εγγραφείτε στο ενημερωτικό μας δελτίο και λάβετε αποκλειστικό περιεχόμενο απευθείας στα εισερχόμενά σας.

    Η μελέτη διαπίστωσε ότι πολλά σημεία αναφοράς κορυφαίας βαθμίδας αποτυγχάνουν να καθορίσουν τους στόχους δοκιμών τους, να επαναχρησιμοποιήσουν δεδομένα και μεθόδους από υπάρχοντα σημεία αναφοράς και σπάνια χρησιμοποιούν αξιόπιστες στατιστικές μεθόδους για τη σύγκριση αποτελεσμάτων μοντέλων.

    Ο Adam Mahdi, ανώτερος ερευνητής στο Ινστιτούτο Διαδικτύου της Οξφόρδης και κύριος συγγραφέας, δήλωσε ότι αυτά τα σημεία αναφοράς μπορεί να είναι «ανησυχητικά παραπλανητικά». Ο Mahdi είπε στο NBC News, «Όταν ζητάμε από μοντέλα τεχνητής νοημοσύνης να εκτελέσουν συγκεκριμένες εργασίες, συχνά μετράμε εντελώς διαφορετικές έννοιες ή κατασκευές από αυτές που στοχεύουμε να μετρήσουμε». Ο Andrew Bean, ένας άλλος κύριος συγγραφέας, συμφώνησε ότι «ακόμη και αξιόπιστα σημεία αναφοράς είναι πολύ συχνά τυφλά αξιόπιστα και αξίζουν περισσότερο έλεγχο».

    είπε επίσης ο Bean NBC News«Πρέπει να το παίρνετε με λίγο αλάτι όταν ακούτε πράγματα όπως «ένα μοντέλο επιτυγχάνει νοημοσύνη σε επίπεδο διδακτορικού». Δεν είμαστε σίγουροι ότι αυτές οι μετρήσεις γίνονται ιδιαίτερα καλά».

    Ορισμένα σημεία αναφοράς που αναλύθηκαν αξιολογούν συγκεκριμένες δεξιότητες, όπως οι ικανότητες στη ρωσική ή την αραβική γλώσσα. Άλλοι μετρούν γενικές ικανότητες όπως η χωρική συλλογιστική και η συνεχής μάθηση.

    Κεντρική ανησυχία για τους συγγραφείς ήταν η «εγκυρότητα κατασκευής» ενός σημείου αναφοράς, το οποίο αμφισβητεί εάν ελέγχει με ακρίβεια το πραγματικό φαινόμενο που σκοπεύει να μετρήσει. Για παράδειγμα, ένα σημείο αναφοράς που εξετάζεται στη μελέτη μετρά την απόδοση ενός μοντέλου εννέα διαφορετικές εργασίεςσυμπεριλαμβανομένης της απάντησης σε ερωτήσεις με ναι ή όχι χρησιμοποιώντας πληροφορίες από τη ρωσική Wikipedia, αντί για μια ατελείωτη σειρά ερωτήσεων για τη μέτρηση της ρωσικής επάρκειας.

    Περίπου τα μισά από τα εξεταζόμενα σημεία αναφοράς δεν ορίζουν με σαφήνεια τις έννοιες που ισχυρίζονται ότι μετρούν. Αυτό θέτει υπό αμφισβήτηση την ικανότητά τους να παρέχουν χρήσιμες πληροφορίες σχετικά με τα υπό δοκιμή μοντέλα AI.

    Η μελέτη υπογραμμίζει το Grade School Math 8K (GSM8K), ένα κοινό σημείο αναφοράς AI για βασικές ερωτήσεις μαθηματικών. Οι βαθμολογικοί πίνακες για το GSM8K αναφέρονται συχνά για να δείξουν τον ισχυρό μαθηματικό συλλογισμό των μοντέλων AI. Η τεκμηρίωση του σημείου αναφοράς δηλώνει ότι είναι «χρήσιμο για τον έλεγχο της άτυπης συλλογιστικής ικανότητας μεγάλων γλωσσικών μοντέλων».

    Ωστόσο, ο Mahdi υποστήριξε ότι οι σωστές απαντήσεις σε σημεία αναφοράς όπως το GSM8K δεν υποδεικνύουν απαραίτητα την πραγματική μαθηματική συλλογιστική. Εξήγησε, “Όταν ρωτάς έναν μαθητή της πρώτης δημοτικού τι ισούται με δύο συν πέντε και λέει επτά, ναι, αυτή είναι η σωστή απάντηση. Αλλά μπορείς να συμπεράνεις από αυτό ότι ένας μαθητής της πέμπτης τάξης έχει κατακτήσει τη μαθηματική ή αριθμητική συλλογιστική από το να μπορεί απλώς να προσθέτει αριθμούς; Ίσως, αλλά νομίζω ότι η απάντηση είναι πολύ πιθανό όχι.”

    Ο Bean αναγνώρισε ότι η μέτρηση αφηρημένων εννοιών όπως ο συλλογισμός περιλαμβάνει την αξιολόγηση ενός υποσυνόλου εργασιών και αυτή η επιλογή θα είναι εγγενώς ατελής. Δήλωσε, “Υπάρχουν πολλά κινούμενα κομμάτια σε αυτές τις αξιολογήσεις και η ικανοποίησή τους απαιτεί ισορροπία. Αλλά αυτό το έγγραφο απαιτεί δείκτες αναφοράς για να ορίσουν με σαφήνεια τι έχουν σκοπό να μετρήσουν.” Πρόσθεσε, «Με έννοιες όπως η ακίνδυνη ή η συλλογιστική, οι άνθρωποι συχνά απλώς ρίχνουν τη λέξη για να διαλέξουν κάτι που βρίσκεται κοντά σε αυτήν την κατηγορία που μπορούν να μετρήσουν και να πουν, «Τέλεια, τώρα το μέτρησα».

    Το νέο χαρτί προσφέρει οκτώ συστάσεις και μια λίστα ελέγχου για τη συστηματοποίηση των κριτηρίων αναφοράς και την ενίσχυση της διαφάνειας και της εμπιστοσύνης. Οι προτεινόμενες βελτιώσεις περιλαμβάνουν τον καθορισμό του εύρους της αξιολογούμενης ενέργειας, την κατασκευή μπαταριών εργασιών που αντιπροσωπεύουν καλύτερα τις συνολικές ικανότητες και τη σύγκριση της απόδοσης του μοντέλου με χρήση στατιστικής ανάλυσης.

    Ο Νίκολα Γιούρκοβιτς, μέλος του τεχνικού προσωπικού του ερευνητικού κέντρου METR AI, εξήρε τις συνεισφορές της εφημερίδας. Ο Jurkovic είπε στο NBC News, “Χρειαζόμαστε περισσότερη αυστηρότητα εάν θέλουμε να μπορούμε να ερμηνεύσουμε τα αποτελέσματα των σημείων αναφοράς AI. Αυτή η λίστα ελέγχου είναι ένα σημείο εκκίνησης για τους ερευνητές να ελέγξουν εάν το σημείο αναφοράς τους θα είναι διορατικό”.

    Το έγγραφο της Τρίτης βασίζεται σε προηγούμενη έρευνα που εντόπισε ελαττώματα σε πολλά σημεία αναφοράς AI. Ερευνητές από την εταιρεία AI Anthropic υποστήριξαν την αύξηση των στατιστικών δοκιμών πέρυσι. Αυτή η δοκιμή θα καθόριζε εάν η απόδοση ενός μοντέλου σε ένα σημείο αναφοράς αντανακλούσε πραγματικές διαφορές δυνατοτήτων ή ήταν ένα «τυχερό αποτέλεσμα» δεδομένων των εργασιών και των ερωτήσεων.

    Πολλές ερευνητικές ομάδες πρότειναν πρόσφατα νέες σειρές δοκιμών για τη βελτίωση της χρησιμότητας και της ακρίβειας των κριτηρίων αναφοράς. Αυτές οι νέες δοκιμές μετρούν καλύτερα την απόδοση των μοντέλων στον πραγματικό κόσμο σε οικονομικά συναφείς εργασίες.

    Στα τέλη Σεπτεμβρίου, το OpenAI ξεκίνησε μια νέα σειρά δοκιμών για την αξιολόγηση της απόδοσης της τεχνητής νοημοσύνης 44 διαφορετικά επαγγέλματα. Αυτές οι δοκιμές στοχεύουν στη σταθεροποίηση των ισχυρισμών ικανότητας τεχνητής νοημοσύνης σε σενάρια πραγματικού κόσμου. Παραδείγματα περιλαμβάνουν την ικανότητα του AI να διορθώνει ασυνέπειες στα τιμολόγια πελατών στο Excel για ρόλο αναλυτή πωλήσεων ή να δημιουργεί ένα πλήρες πρόγραμμα παραγωγής για μια λήψη βίντεο 60 δευτερολέπτων για έναν ρόλο παραγωγού βίντεο.

    Ο Dan Hendrycks, διευθυντής του Κέντρου για την Ασφάλεια AI, και μια ερευνητική ομάδα πρόσφατα κυκλοφόρησαν ένα παρόμοιο σημείο αναφοράς στον πραγματικό κόσμο. Αυτό το σημείο αναφοράς αξιολογεί την απόδοση των συστημάτων AI σε εργασίες που είναι απαραίτητες για την αυτοματοποίηση της απομακρυσμένης εργασίας. Ο Χέντρικς είπε στο NBC News, «Είναι σύνηθες τα συστήματα τεχνητής νοημοσύνης να σημειώνουν υψηλή βαθμολογία σε ένα σημείο αναφοράς, αλλά στην πραγματικότητα να μην επιλύουν τον πραγματικό στόχο του σημείου αναφοράς».

    Ο Mahdi κατέληξε στο συμπέρασμα ότι οι ερευνητές και οι προγραμματιστές έχουν πολλούς δρόμους να εξερευνήσουν στην αξιολόγηση κριτηρίων αναφοράς AI. Δήλωσε, «Είμαστε μόλις στην αρχή της επιστημονικής αξιολόγησης των συστημάτων AI».


    Πίστωση επιλεγμένης εικόνας



    VIA: DataConomy.com

    Related Posts


    Η Wikipedia λέει στις εταιρείες τεχνητής νοημοσύνης να σταματήσουν το ξύσιμο και να αρχίσουν να πληρώνουν
    Technology

    Αξιαγάπητες αυξήσεις προς 8 εκατομμύρια χρήστες μετά από γύρο χρηματοδότησης 200 εκατομμυρίων $
    Technology

    Το νέο τσιπ Broadcom θα μπορούσε να κάνει την επόμενη τηλεόρασή σας έναν άμεσο μεταφραστή
    Technology
    news openAI Startups Wikipedia Όλα συμπεριλαμβάνονται Οξφόρδη Σημείο αναφοράς
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleBlackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!
    Marizas Dimitris
    • Website
    • Facebook

    Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες της Samsung. Αγαπά να εξερευνά νέες ιδέες, να λύνει προβλήματα και να μοιράζεται τρόπους που κάνουν την τεχνολογία πιο ανθρώπινη και απολαυστική.

    Related Posts

    Technology

    Blackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!

    12 Νοεμβρίου 2025
    Android

    Η δουλειά της Garmin σε ένα στέμμα φαίνεται αναπόφευκτη, αλλά είναι βέβαιο ότι θα ενοχλήσει τους μεγαλύτερους θαυμαστές της και υπάρχει μόνο ένας τρόπος που πιστεύω ότι θα μπορούσε να λειτουργήσει

    12 Νοεμβρίου 2025
    Technology

    Η startup Einride για φορτηγά αυτοοδηγούμενας σχεδιάζει να κυκλοφορήσει στο κοινό μέσω ενός SPAC

    12 Νοεμβρίου 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

    30 Οκτωβρίου 2025555 Views
    Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

    Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

    12 Νοεμβρίου 2025461 Views

    SpaceX Starlink V3: Νέοι Δορυφόροι με 1Tbps Bandwidth και Gigabit Ταχύτητες

    18 Οκτωβρίου 2025339 Views
    Stay In Touch
    • Facebook
    • YouTube
    • TikTok
    • WhatsApp
    • Twitter
    • Instagram
    Latest News
    Technology

    Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου

    Marizas Dimitris12 Νοεμβρίου 2025
    Technology

    Blackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!

    Marizas Dimitris12 Νοεμβρίου 2025
    Android

    Η δουλειά της Garmin σε ένα στέμμα φαίνεται αναπόφευκτη, αλλά είναι βέβαιο ότι θα ενοχλήσει τους μεγαλύτερους θαυμαστές της και υπάρχει μόνο ένας τρόπος που πιστεύω ότι θα μπορούσε να λειτουργήσει

    Marizas Dimitris12 Νοεμβρίου 2025
    Most Popular

    Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

    30 Οκτωβρίου 2025555 Views
    Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα οδηγός

    Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

    12 Νοεμβρίου 2025461 Views

    SpaceX Starlink V3: Νέοι Δορυφόροι με 1Tbps Bandwidth και Gigabit Ταχύτητες

    18 Οκτωβρίου 2025339 Views
    About TechReport.gr

    Το TechReport.gr ιδρύθηκε με στόχο να αποτελέσει την πρώτη πηγή ενημέρωσης για όσους αναζητούν αξιόπιστη και εμπεριστατωμένη κάλυψη του τεχνολογικού κόσμου. Από την αρχή της λειτουργίας του, το site έχει δεσμευτεί στην παροχή ποιοτικού περιεχομένου που συνδυάζει ενημέρωση, ανάλυση και πρακτικές συμβουλές.
    • Email: [email protected]
    • Phone: +30 6980 730 713
    Copyright © 2025| TechReport.gr | A project by: Δημήτρης Μάριζας
    Λογότυπα, επωνυμίες, εμπορικά σήματα και γνωρίσματα ανήκουν στους νόμιμους ιδιοκτήτες.

    Our Picks

    Μελέτη της Οξφόρδης βρίσκει ότι τα σημεία αναφοράς AI συχνά υπερβάλλουν την απόδοση του μοντέλου

    12 Νοεμβρίου 2025

    Blackview AceBook 8: Laptop 16 ιντσών με 16GB RAM, σαρωτής δακτυλικών αποτυπωμάτων στα 260€!

    12 Νοεμβρίου 2025

    Η δουλειά της Garmin σε ένα στέμμα φαίνεται αναπόφευκτη, αλλά είναι βέβαιο ότι θα ενοχλήσει τους μεγαλύτερους θαυμαστές της και υπάρχει μόνο ένας τρόπος που πιστεύω ότι θα μπορούσε να λειτουργήσει

    12 Νοεμβρίου 2025
    Facebook X (Twitter) Instagram Pinterest
    • Home
    • Technology
    • Gaming
    • Phones
    • Buy Now
    © 2025 TechBit.gr Designed and Developed by Dimitris Marizas.

    Type above and press Enter to search. Press Esc to cancel.