Οι ερευνητές της Apple δημοσίευσαν μια μελέτη που εξετάζει τον τρόπο με τον οποίο τα LLM μπορούν να αναλύσουν δεδομένα ήχου και κίνησης για να έχουν μια καλύτερη επισκόπηση των δραστηριοτήτων του χρήστη. Εδώ είναι οι λεπτομέρειες.
Είναι καλοί σε αυτό, αλλά όχι με ανατριχιαστικό τρόπο
Μια νέα εφημερίδα με τίτλο “Χρήση LLM για όψιμη πολυτροπική σύντηξη αισθητήρα για αναγνώριση δραστηριότητας” προσφέρει μια εικόνα για το πώς η Apple μπορεί να σκέφτεται να ενσωματώσει την ανάλυση LLM μαζί με τα παραδοσιακά δεδομένα αισθητήρων για να αποκτήσει μια πιο ακριβή κατανόηση της δραστηριότητας των χρηστών.
Αυτό, υποστηρίζουν, έχει μεγάλες δυνατότητες να κάνει την ανάλυση δραστηριότητας πιο ακριβή, ακόμη και σε καταστάσεις όπου δεν υπάρχουν αρκετά δεδομένα αισθητήρων.
Από τους ερευνητές:
“Οι ροές δεδομένων αισθητήρων παρέχουν πολύτιμες πληροφορίες σχετικά με δραστηριότητες και το πλαίσιο για μεταγενέστερες εφαρμογές, αν και η ενσωμάτωση συμπληρωματικών πληροφοριών μπορεί να είναι δύσκολη. Δείχνουμε ότι τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να χρησιμοποιηθούν για καθυστερημένη σύντηξη για ταξινόμηση δραστηριότητας από δεδομένα χρονοσειρών ήχου και κίνησης. Επιμεληθήκαμε ένα υποσύνολο δεδομένων για αναγνώριση διαφορετικής δραστηριότητας σε περιβάλλοντα (π.χ. Η ταξινόμηση 12 κλάσεων μηδενικής και μίας βολής βαθμολογείται σημαντικά πάνω από τις πιθανότητες, χωρίς εκπαίδευση σε συγκεκριμένη εργασία μέσω σύντηξης LLM από συγκεκριμένα μοντέλα, όπου υπάρχουν περιορισμένα ευθυγραμμισμένα δεδομένα εκπαίδευσης για την εκμάθηση ενός κοινόχρηστου χώρου ενσωμάτωσης, χωρίς προσθήκη LL υπολογισμός για στοχευμένα πολυτροπικά μοντέλα ειδικά για εφαρμογές.”
Με άλλα λόγια, τα LLM είναι στην πραγματικότητα πολύ καλά στο να συμπεράνουν τι κάνει ένας χρήστης από τα βασικά σήματα ήχου και κίνησης, ακόμη και όταν δεν είναι ειδικά εκπαιδευμένοι για αυτό. Επιπλέον, όταν δίνεται μόνο ένα παράδειγμα, η ακρίβειά τους βελτιώνεται ακόμη περισσότερο.
Μια σημαντική διάκριση είναι ότι σε αυτή τη μελέτη, το LLM δεν τροφοδοτήθηκε με την πραγματική ηχογράφηση, αλλά αντίθετα, σύντομες περιγραφές κειμένου που δημιουργήθηκαν από μοντέλα ήχου και ένα μοντέλο κίνησης που βασίζεται σε IMU (το οποίο παρακολουθεί την κίνηση μέσω δεδομένων επιταχυνσιόμετρου και γυροσκόπιου), όπως φαίνεται παρακάτω:

Βουτήξτε λίγο πιο βαθιά
Στο έγγραφο, οι ερευνητές εξηγούν ότι χρησιμοποίησαν το Ego4D, ένα τεράστιο σύνολο δεδομένων μέσων που γυρίστηκαν σε πρώτο πρόσωπο. Τα δεδομένα περιέχουν χιλιάδες ώρες πραγματικών περιβαλλόντων και καταστάσεων, από οικιακές εργασίες έως υπαίθριες δραστηριότητες.
Από τη μελέτη:
“Επιμελήσαμε ένα σύνολο δεδομένων καθημερινών δραστηριοτήτων από το σύνολο δεδομένων Ego4D αναζητώντας δραστηριότητες καθημερινής ζωής μέσα στις παρεχόμενες αφηγηματικές περιγραφές. Το επιμελημένο σύνολο δεδομένων περιλαμβάνει δείγματα 20 δευτερολέπτων από δώδεκα δραστηριότητες υψηλού επιπέδου: ηλεκτρική σκούπα, μαγείρεμα, πλύσιμο ρούχων, φαγητό, παιχνίδι μπάσκετ, παιχνίδι ποδοσφαίρου, παιχνίδι με κατοικίδια, ανάγνωση βιβλίων, ανάγνωση κατοικίδιων ζώων, ανάγνωση βιβλίων, ανάγνωση κατοικίδιων ζώων. προπόνηση/άρση βαρών Αυτές οι δραστηριότητες επιλέχθηκαν για να καλύπτουν μια σειρά από οικιακές εργασίες και εργασίες φυσικής κατάστασης και με βάση την επικράτηση τους στο μεγαλύτερο σύνολο δεδομένων.
Οι ερευνητές έτρεξαν τα δεδομένα ήχου και κίνησης μέσω μικρότερων μοντέλων που παρήγαγαν λεζάντες κειμένου και προβλέψεις τάξης και στη συνέχεια τροφοδοτούσαν αυτές τις εξόδους σε διαφορετικά LLM (Gemini-2.5-pro και Qwen-32B) για να δουν πόσο καλά μπορούσαν να αναγνωρίσουν τη δραστηριότητα.
Στη συνέχεια, η Apple συνέκρινε την απόδοση αυτών των μοντέλων σε δύο διαφορετικές καταστάσεις: μια στην οποία τους δόθηκε η λίστα με τις 12 πιθανές δραστηριότητες για να διαλέξουν (κλειστό σετ) και μια άλλη όπου δεν τους δόθηκε καμία επιλογή (ανοιχτό).
Για κάθε δοκιμή, τους δόθηκαν διαφορετικοί συνδυασμοί λεζάντες ήχου, ετικέτες ήχου, δεδομένα πρόβλεψης δραστηριότητας IMU και επιπλέον πλαίσιο, και έτσι έκαναν:

Στο τέλος, οι ερευνητές σημειώνουν ότι τα αποτελέσματα αυτής της μελέτης προσφέρουν ενδιαφέρουσες ιδέες για το πώς ο συνδυασμός πολλαπλών μοντέλων μπορεί να ωφελήσει δεδομένα δραστηριότητας και υγείας, ειδικά σε περιπτώσεις όπου τα ακατέργαστα δεδομένα αισθητήρων δεν επαρκούν από μόνα τους για να παρέχουν μια σαφή εικόνα της δραστηριότητας του χρήστη.
Ίσως το πιο σημαντικό, η Apple δημοσιευμένο συμπληρωματικό υλικό παράλληλα με τη μελέτη, συμπεριλαμβανομένων των αναγνωριστικών τμημάτων Ego4D, των χρονικών σημάνσεων, των προτροπών και των παραδειγμάτων μιας λήψης που χρησιμοποιήθηκαν στα πειράματα, για να βοηθήσουν τους ερευνητές που ενδιαφέρονται να αναπαράγουν τα αποτελέσματα.
Προσφορές αξεσουάρ στο Amazon
FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.
Via: 9to5mac.com










