Μια νέα μελέτη αποκαλύπτει ότι οι μεθοδολογίες για την αξιολόγηση συστημάτων τεχνητής νοημοσύνης συχνά υπερεκτιμούν την απόδοση και δεν έχουν επιστημονική αυστηρότητα, εγείροντας ερωτήματα σχετικά με πολλά αποτελέσματα αναφοράς.
Ερευνητές στο Ινστιτούτο Διαδικτύου της Οξφόρδης, που συνεργάζονται με πάνω από τρεις δωδεκάδες ιδρύματαεξετάστηκε 445 κορυφαίες δοκιμές AIγνωστά ως σημεία αναφοράς. Αυτά τα σημεία αναφοράς μετρούν την απόδοση του μοντέλου AI σε διάφορους θεματικούς τομείς.
Οι προγραμματιστές τεχνητής νοημοσύνης χρησιμοποιούν αυτά τα σημεία αναφοράς για να αξιολογήσουν τις δυνατότητες του μοντέλου και να προωθήσουν τεχνικές προόδους. Οι αξιώσεις σχετικά με την απόδοση μηχανικής λογισμικού και την ικανότητα αφηρημένης αιτιολογίας αναφέρονται σε αυτές τις αξιολογήσεις. Η εφημερίδα, που κυκλοφόρησε την Τρίτη, υποδηλώνει ότι αυτές οι θεμελιώδεις δοκιμές μπορεί να είναι αναξιόπιστες.
Η μελέτη διαπίστωσε ότι πολλά σημεία αναφοράς κορυφαίας βαθμίδας αποτυγχάνουν να καθορίσουν τους στόχους δοκιμών τους, να επαναχρησιμοποιήσουν δεδομένα και μεθόδους από υπάρχοντα σημεία αναφοράς και σπάνια χρησιμοποιούν αξιόπιστες στατιστικές μεθόδους για τη σύγκριση αποτελεσμάτων μοντέλων.
Ο Adam Mahdi, ανώτερος ερευνητής στο Ινστιτούτο Διαδικτύου της Οξφόρδης και κύριος συγγραφέας, δήλωσε ότι αυτά τα σημεία αναφοράς μπορεί να είναι «ανησυχητικά παραπλανητικά». Ο Mahdi είπε στο NBC News, «Όταν ζητάμε από μοντέλα τεχνητής νοημοσύνης να εκτελέσουν συγκεκριμένες εργασίες, συχνά μετράμε εντελώς διαφορετικές έννοιες ή κατασκευές από αυτές που στοχεύουμε να μετρήσουμε». Ο Andrew Bean, ένας άλλος κύριος συγγραφέας, συμφώνησε ότι «ακόμη και αξιόπιστα σημεία αναφοράς είναι πολύ συχνά τυφλά αξιόπιστα και αξίζουν περισσότερο έλεγχο».
είπε επίσης ο Bean NBC News«Πρέπει να το παίρνετε με λίγο αλάτι όταν ακούτε πράγματα όπως «ένα μοντέλο επιτυγχάνει νοημοσύνη σε επίπεδο διδακτορικού». Δεν είμαστε σίγουροι ότι αυτές οι μετρήσεις γίνονται ιδιαίτερα καλά».
Ορισμένα σημεία αναφοράς που αναλύθηκαν αξιολογούν συγκεκριμένες δεξιότητες, όπως οι ικανότητες στη ρωσική ή την αραβική γλώσσα. Άλλοι μετρούν γενικές ικανότητες όπως η χωρική συλλογιστική και η συνεχής μάθηση.
Κεντρική ανησυχία για τους συγγραφείς ήταν η «εγκυρότητα κατασκευής» ενός σημείου αναφοράς, το οποίο αμφισβητεί εάν ελέγχει με ακρίβεια το πραγματικό φαινόμενο που σκοπεύει να μετρήσει. Για παράδειγμα, ένα σημείο αναφοράς που εξετάζεται στη μελέτη μετρά την απόδοση ενός μοντέλου εννέα διαφορετικές εργασίεςσυμπεριλαμβανομένης της απάντησης σε ερωτήσεις με ναι ή όχι χρησιμοποιώντας πληροφορίες από τη ρωσική Wikipedia, αντί για μια ατελείωτη σειρά ερωτήσεων για τη μέτρηση της ρωσικής επάρκειας.
Περίπου τα μισά από τα εξεταζόμενα σημεία αναφοράς δεν ορίζουν με σαφήνεια τις έννοιες που ισχυρίζονται ότι μετρούν. Αυτό θέτει υπό αμφισβήτηση την ικανότητά τους να παρέχουν χρήσιμες πληροφορίες σχετικά με τα υπό δοκιμή μοντέλα AI.
Η μελέτη υπογραμμίζει το Grade School Math 8K (GSM8K), ένα κοινό σημείο αναφοράς AI για βασικές ερωτήσεις μαθηματικών. Οι βαθμολογικοί πίνακες για το GSM8K αναφέρονται συχνά για να δείξουν τον ισχυρό μαθηματικό συλλογισμό των μοντέλων AI. Η τεκμηρίωση του σημείου αναφοράς δηλώνει ότι είναι «χρήσιμο για τον έλεγχο της άτυπης συλλογιστικής ικανότητας μεγάλων γλωσσικών μοντέλων».
Ωστόσο, ο Mahdi υποστήριξε ότι οι σωστές απαντήσεις σε σημεία αναφοράς όπως το GSM8K δεν υποδεικνύουν απαραίτητα την πραγματική μαθηματική συλλογιστική. Εξήγησε, “Όταν ρωτάς έναν μαθητή της πρώτης δημοτικού τι ισούται με δύο συν πέντε και λέει επτά, ναι, αυτή είναι η σωστή απάντηση. Αλλά μπορείς να συμπεράνεις από αυτό ότι ένας μαθητής της πέμπτης τάξης έχει κατακτήσει τη μαθηματική ή αριθμητική συλλογιστική από το να μπορεί απλώς να προσθέτει αριθμούς; Ίσως, αλλά νομίζω ότι η απάντηση είναι πολύ πιθανό όχι.”
Ο Bean αναγνώρισε ότι η μέτρηση αφηρημένων εννοιών όπως ο συλλογισμός περιλαμβάνει την αξιολόγηση ενός υποσυνόλου εργασιών και αυτή η επιλογή θα είναι εγγενώς ατελής. Δήλωσε, “Υπάρχουν πολλά κινούμενα κομμάτια σε αυτές τις αξιολογήσεις και η ικανοποίησή τους απαιτεί ισορροπία. Αλλά αυτό το έγγραφο απαιτεί δείκτες αναφοράς για να ορίσουν με σαφήνεια τι έχουν σκοπό να μετρήσουν.” Πρόσθεσε, «Με έννοιες όπως η ακίνδυνη ή η συλλογιστική, οι άνθρωποι συχνά απλώς ρίχνουν τη λέξη για να διαλέξουν κάτι που βρίσκεται κοντά σε αυτήν την κατηγορία που μπορούν να μετρήσουν και να πουν, «Τέλεια, τώρα το μέτρησα».
Το νέο χαρτί προσφέρει οκτώ συστάσεις και μια λίστα ελέγχου για τη συστηματοποίηση των κριτηρίων αναφοράς και την ενίσχυση της διαφάνειας και της εμπιστοσύνης. Οι προτεινόμενες βελτιώσεις περιλαμβάνουν τον καθορισμό του εύρους της αξιολογούμενης ενέργειας, την κατασκευή μπαταριών εργασιών που αντιπροσωπεύουν καλύτερα τις συνολικές ικανότητες και τη σύγκριση της απόδοσης του μοντέλου με χρήση στατιστικής ανάλυσης.
Ο Νίκολα Γιούρκοβιτς, μέλος του τεχνικού προσωπικού του ερευνητικού κέντρου METR AI, εξήρε τις συνεισφορές της εφημερίδας. Ο Jurkovic είπε στο NBC News, “Χρειαζόμαστε περισσότερη αυστηρότητα εάν θέλουμε να μπορούμε να ερμηνεύσουμε τα αποτελέσματα των σημείων αναφοράς AI. Αυτή η λίστα ελέγχου είναι ένα σημείο εκκίνησης για τους ερευνητές να ελέγξουν εάν το σημείο αναφοράς τους θα είναι διορατικό”.
Το έγγραφο της Τρίτης βασίζεται σε προηγούμενη έρευνα που εντόπισε ελαττώματα σε πολλά σημεία αναφοράς AI. Ερευνητές από την εταιρεία AI Anthropic υποστήριξαν την αύξηση των στατιστικών δοκιμών πέρυσι. Αυτή η δοκιμή θα καθόριζε εάν η απόδοση ενός μοντέλου σε ένα σημείο αναφοράς αντανακλούσε πραγματικές διαφορές δυνατοτήτων ή ήταν ένα «τυχερό αποτέλεσμα» δεδομένων των εργασιών και των ερωτήσεων.
Πολλές ερευνητικές ομάδες πρότειναν πρόσφατα νέες σειρές δοκιμών για τη βελτίωση της χρησιμότητας και της ακρίβειας των κριτηρίων αναφοράς. Αυτές οι νέες δοκιμές μετρούν καλύτερα την απόδοση των μοντέλων στον πραγματικό κόσμο σε οικονομικά συναφείς εργασίες.
Στα τέλη Σεπτεμβρίου, το OpenAI ξεκίνησε μια νέα σειρά δοκιμών για την αξιολόγηση της απόδοσης της τεχνητής νοημοσύνης 44 διαφορετικά επαγγέλματα. Αυτές οι δοκιμές στοχεύουν στη σταθεροποίηση των ισχυρισμών ικανότητας τεχνητής νοημοσύνης σε σενάρια πραγματικού κόσμου. Παραδείγματα περιλαμβάνουν την ικανότητα του AI να διορθώνει ασυνέπειες στα τιμολόγια πελατών στο Excel για ρόλο αναλυτή πωλήσεων ή να δημιουργεί ένα πλήρες πρόγραμμα παραγωγής για μια λήψη βίντεο 60 δευτερολέπτων για έναν ρόλο παραγωγού βίντεο.
Ο Dan Hendrycks, διευθυντής του Κέντρου για την Ασφάλεια AI, και μια ερευνητική ομάδα πρόσφατα κυκλοφόρησαν ένα παρόμοιο σημείο αναφοράς στον πραγματικό κόσμο. Αυτό το σημείο αναφοράς αξιολογεί την απόδοση των συστημάτων AI σε εργασίες που είναι απαραίτητες για την αυτοματοποίηση της απομακρυσμένης εργασίας. Ο Χέντρικς είπε στο NBC News, «Είναι σύνηθες τα συστήματα τεχνητής νοημοσύνης να σημειώνουν υψηλή βαθμολογία σε ένα σημείο αναφοράς, αλλά στην πραγματικότητα να μην επιλύουν τον πραγματικό στόχο του σημείου αναφοράς».
Ο Mahdi κατέληξε στο συμπέρασμα ότι οι ερευνητές και οι προγραμματιστές έχουν πολλούς δρόμους να εξερευνήσουν στην αξιολόγηση κριτηρίων αναφοράς AI. Δήλωσε, «Είμαστε μόλις στην αρχή της επιστημονικής αξιολόγησης των συστημάτων AI».
VIA: DataConomy.com










