Μια μελέτη της Apple δείχνει ότι τα LLM μπορούν να καταλάβουν τι κάνετε από δεδομένα ήχου

Contents

Είναι καλοί σε αυτό, αλλά όχι με ανατριχιαστικό τρόπο
Βουτήξτε λίγο πιο βαθιά

Προσφορές αξεσουάρ στο Amazon

Οι ερευνητές της Apple δημοσίευσαν μια μελέτη που εξετάζει τον τρόπο με τον οποίο τα LLM μπορούν να αναλύσουν δεδομένα ήχου και κίνησης για να έχουν μια καλύτερη επισκόπηση των δραστηριοτήτων του χρήστη. Εδώ είναι οι λεπτομέρειες.

Είναι καλοί σε αυτό, αλλά όχι με ανατριχιαστικό τρόπο

Μια νέα εφημερίδα με τίτλο “Χρήση LLM για όψιμη πολυτροπική σύντηξη αισθητήρα για αναγνώριση δραστηριότητας” προσφέρει μια εικόνα για το πώς η Apple μπορεί να σκέφτεται να ενσωματώσει την ανάλυση LLM μαζί με τα παραδοσιακά δεδομένα αισθητήρων για να αποκτήσει μια πιο ακριβή κατανόηση της δραστηριότητας των χρηστών.

Αυτό, υποστηρίζουν, έχει μεγάλες δυνατότητες να κάνει την ανάλυση δραστηριότητας πιο ακριβή, ακόμη και σε καταστάσεις όπου δεν υπάρχουν αρκετά δεδομένα αισθητήρων.

Από τους ερευνητές:

“Οι ροές δεδομένων αισθητήρων παρέχουν πολύτιμες πληροφορίες σχετικά με δραστηριότητες και το πλαίσιο για μεταγενέστερες εφαρμογές, αν και η ενσωμάτωση συμπληρωματικών πληροφοριών μπορεί να είναι δύσκολη. Δείχνουμε ότι τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να χρησιμοποιηθούν για καθυστερημένη σύντηξη για ταξινόμηση δραστηριότητας από δεδομένα χρονοσειρών ήχου και κίνησης. Επιμεληθήκαμε ένα υποσύνολο δεδομένων για αναγνώριση διαφορετικής δραστηριότητας σε περιβάλλοντα (π.χ. Η ταξινόμηση 12 κλάσεων μηδενικής και μίας βολής βαθμολογείται σημαντικά πάνω από τις πιθανότητες, χωρίς εκπαίδευση σε συγκεκριμένη εργασία μέσω σύντηξης LLM από συγκεκριμένα μοντέλα, όπου υπάρχουν περιορισμένα ευθυγραμμισμένα δεδομένα εκπαίδευσης για την εκμάθηση ενός κοινόχρηστου χώρου ενσωμάτωσης, χωρίς προσθήκη LL υπολογισμός για στοχευμένα πολυτροπικά μοντέλα ειδικά για εφαρμογές.”

Με άλλα λόγια, τα LLM είναι στην πραγματικότητα πολύ καλά στο να συμπεράνουν τι κάνει ένας χρήστης από τα βασικά σήματα ήχου και κίνησης, ακόμη και όταν δεν είναι ειδικά εκπαιδευμένοι για αυτό. Επιπλέον, όταν δίνεται μόνο ένα παράδειγμα, η ακρίβειά τους βελτιώνεται ακόμη περισσότερο.

Μια σημαντική διάκριση είναι ότι σε αυτή τη μελέτη, το LLM δεν τροφοδοτήθηκε με την πραγματική ηχογράφηση, αλλά αντίθετα, σύντομες περιγραφές κειμένου που δημιουργήθηκαν από μοντέλα ήχου και ένα μοντέλο κίνησης που βασίζεται σε IMU (το οποίο παρακολουθεί την κίνηση μέσω δεδομένων επιταχυνσιόμετρου και γυροσκόπιου), όπως φαίνεται παρακάτω:

Βουτήξτε λίγο πιο βαθιά

Στο έγγραφο, οι ερευνητές εξηγούν ότι χρησιμοποίησαν το Ego4D, ένα τεράστιο σύνολο δεδομένων μέσων που γυρίστηκαν σε πρώτο πρόσωπο. Τα δεδομένα περιέχουν χιλιάδες ώρες πραγματικών περιβαλλόντων και καταστάσεων, από οικιακές εργασίες έως υπαίθριες δραστηριότητες.

Από τη μελέτη:

“Επιμελήσαμε ένα σύνολο δεδομένων καθημερινών δραστηριοτήτων από το σύνολο δεδομένων Ego4D αναζητώντας δραστηριότητες καθημερινής ζωής μέσα στις παρεχόμενες αφηγηματικές περιγραφές. Το επιμελημένο σύνολο δεδομένων περιλαμβάνει δείγματα 20 δευτερολέπτων από δώδεκα δραστηριότητες υψηλού επιπέδου: ηλεκτρική σκούπα, μαγείρεμα, πλύσιμο ρούχων, φαγητό, παιχνίδι μπάσκετ, παιχνίδι ποδοσφαίρου, παιχνίδι με κατοικίδια, ανάγνωση βιβλίων, ανάγνωση κατοικίδιων ζώων, ανάγνωση βιβλίων, ανάγνωση κατοικίδιων ζώων. προπόνηση/άρση βαρών Αυτές οι δραστηριότητες επιλέχθηκαν για να καλύπτουν μια σειρά από οικιακές εργασίες και εργασίες φυσικής κατάστασης και με βάση την επικράτηση τους στο μεγαλύτερο σύνολο δεδομένων.

Οι ερευνητές έτρεξαν τα δεδομένα ήχου και κίνησης μέσω μικρότερων μοντέλων που παρήγαγαν λεζάντες κειμένου και προβλέψεις τάξης και στη συνέχεια τροφοδοτούσαν αυτές τις εξόδους σε διαφορετικά LLM (Gemini-2.5-pro και Qwen-32B) για να δουν πόσο καλά μπορούσαν να αναγνωρίσουν τη δραστηριότητα.

Στη συνέχεια, η Apple συνέκρινε την απόδοση αυτών των μοντέλων σε δύο διαφορετικές καταστάσεις: μια στην οποία τους δόθηκε η λίστα με τις 12 πιθανές δραστηριότητες για να διαλέξουν (κλειστό σετ) και μια άλλη όπου δεν τους δόθηκε καμία επιλογή (ανοιχτό).

Για κάθε δοκιμή, τους δόθηκαν διαφορετικοί συνδυασμοί λεζάντες ήχου, ετικέτες ήχου, δεδομένα πρόβλεψης δραστηριότητας IMU και επιπλέον πλαίσιο, και έτσι έκαναν:

Στο τέλος, οι ερευνητές σημειώνουν ότι τα αποτελέσματα αυτής της μελέτης προσφέρουν ενδιαφέρουσες ιδέες για το πώς ο συνδυασμός πολλαπλών μοντέλων μπορεί να ωφελήσει δεδομένα δραστηριότητας και υγείας, ειδικά σε περιπτώσεις όπου τα ακατέργαστα δεδομένα αισθητήρων δεν επαρκούν από μόνα τους για να παρέχουν μια σαφή εικόνα της δραστηριότητας του χρήστη.

Ίσως το πιο σημαντικό, η Apple δημοσιευμένο συμπληρωματικό υλικό παράλληλα με τη μελέτη, συμπεριλαμβανομένων των αναγνωριστικών τμημάτων Ego4D, των χρονικών σημάνσεων, των προτροπών και των παραδειγμάτων μιας λήψης που χρησιμοποιήθηκαν στα πειράματα, για να βοηθήσουν τους ερευνητές που ενδιαφέρονται να αναπαράγουν τα αποτελέσματα.

Προσφορές αξεσουάρ στο Amazon

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.

Via: 9to5mac.com

Μια μελέτη της Apple δείχνει ότι τα LLM μπορούν να καταλάβουν τι κάνετε από δεδομένα ήχου

Είναι καλοί σε αυτό, αλλά όχι με ανατριχιαστικό τρόπο

Βουτήξτε λίγο πιο βαθιά

Προσφορές αξεσουάρ στο Amazon

Αφήστε μια απάντηση Ακύρωση απάντησης

Stay Connected

Create an Amazing Newspaper

Latest News

Wall Street: Οι Ενεργειακοί Γίγαντες Θριαμβεύουν Μετά την Επίθεση στη Βενεζουέλα – Αποκαλύψεις που θα σας Σοκάρουν!

AMD Ryzen 7 9800X3D: Νέο overclock ρεκόρ στα 7.33 GHz

«Ανακαλύφθηκαν 360.000 μοριακοί κόμποι που ελέγχουν τα γονίδιά μας – Μάθετε πώς επηρεάζουν τη ζωή σας!»

Το NETGEAR Nighthawk BE9300 είναι ένας ευέλικτος και υψηλής απόδοσης δρομολογητής Wi-Fi 7, που προσφέρει κάλυψη τριών ζωνών για παιχνίδια, ροή 4K και άλλα, για μόλις 189,99 $ στο Amazon

We influence 20 million users and is the number one business and technology news network on the planet

Quick Link

Support

Sign Up for Our Newsletter

Είναι καλοί σε αυτό, αλλά όχι με ανατριχιαστικό τρόπο

Βουτήξτε λίγο πιο βαθιά

Προσφορές αξεσουάρ στο Amazon

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Αφήστε μια απάντηση Ακύρωση απάντησης

Stay Connected

Create an Amazing Newspaper

Latest News

Wall Street: Οι Ενεργειακοί Γίγαντες Θριαμβεύουν Μετά την Επίθεση στη Βενεζουέλα – Αποκαλύψεις που θα σας Σοκάρουν!

AMD Ryzen 7 9800X3D: Νέο overclock ρεκόρ στα 7.33 GHz

«Ανακαλύφθηκαν 360.000 μοριακοί κόμποι που ελέγχουν τα γονίδιά μας – Μάθετε πώς επηρεάζουν τη ζωή σας!»

Το NETGEAR Nighthawk BE9300 είναι ένας ευέλικτος και υψηλής απόδοσης δρομολογητής Wi-Fi 7, που προσφέρει κάλυψη τριών ζωνών για παιχνίδια, ροή 4K και άλλα, για μόλις 189,99 $ στο Amazon

You Might also Like

How to spend your remaining FSA balance before it expires

Αποκτήστε ένα πρόγραμμα οδήγησης αντίκτυπου DeWalt 179 $ για 99 $ κατά τη διάρκεια της τεράστιας έκπτωσης της Μαύρης Παρασκευής της Amazon στα ηλεκτρικά εργαλεία DeWalt

Ο παίκτης των Knicks, Miles McBride, λανσάρει μια εφαρμογή φιλίας για κοινή χρήση τοποθεσίας για να ανταγωνιστεί το Snap Map

Join Us!