Meta Πλατφόρμες ανακοινώθηκε SAM 3 και SAM 3D, νέα μοντέλα όρασης υπολογιστή ανοιχτού κώδικα στη συλλογή του Segment Anything, τα οποία επιτρέπουν την ανίχνευση αντικειμένων βάσει κειμένου και την τρισδιάστατη ανακατασκευή για την υποστήριξη διαδικασιών επεξεργασίας βίντεο και δημιουργίας περιεχομένου.
Αυτά τα μοντέλα διαφέρουν από τις προηγούμενες εκδόσεις της συλλογής επιτρέποντας την ανίχνευση και την τμηματοποίηση αντικειμένων μέσω μηνυμάτων φυσικής γλώσσας και όχι μέσω μεθόδων μη αυτόματης επιλογής. Για παράδειγμα, το SAM 3 εντοπίζει κάθε εμφάνιση αντικειμένων που ταιριάζουν με περιγραφές όπως «κίτρινο σχολικό λεωφορείο» ή «άτομα που κάθονται, αλλά δεν φορούν κόκκινο καπέλο του μπέιζμπολ», όπως περιγράφεται λεπτομερώς στην ανακοίνωση του Meta. Αυτή η δυνατότητα επεκτείνεται σε πολύπλοκα ερωτήματα που καθορίζουν εξαιρέσεις ή συνθήκες, διευκολύνοντας την ακριβή στόχευση σε οπτικό περιεχόμενο.
Το SAM 3D εστιάζει στη δημιουργία τρισδιάστατων αναπαραστάσεων αντικειμένων, ατόμων και ολόκληρων σκηνών που προέρχονται από μεμονωμένες δισδιάστατες εικόνες. Αυτή η ανακατασκευή παρέχει πληροφορίες βάθους και χωρικές πληροφορίες που προηγουμένως δεν ήταν διαθέσιμες από στατικές φωτογραφίες, επιτρέποντας εφαρμογές που απαιτούν ογκομετρική κατανόηση.
Οι μετρήσεις απόδοσης για το SAM 3 περιλαμβάνουν μια μέση βαθμολογία ακρίβειας μάσκας μηδενικής βολής 47,0 στο σημείο αναφοράς LVIS, η οποία δείχνει αύξηση 22 τοις εκατό σε σύγκριση με προηγούμενα συστήματα, με βάση τα ευρήματα στην ερευνητική εργασία της Meta. Το μοντέλο λειτουργεί με ταχύτητα περίπου 30 χιλιοστών του δευτερολέπτου ανά καρέ όταν χρησιμοποιεί GPU H200 και διαχειρίζεται πάνω από 100 αντικείμενα ταυτόχρονα, υποστηρίζοντας την επεξεργασία σε πραγματικό χρόνο σε απαιτητικά σενάρια.
«Το SAM 3 ξεπερνά αυτόν τον περιορισμό, δεχόμενο ένα πολύ μεγαλύτερο εύρος προτροπών κειμένου», ανέφερε η Meta στην ανακοίνωσή της. Για να βοηθήσει τους προγραμματιστές, η Meta συνεργάστηκε με τη Roboflow, παρέχοντας εργαλεία για σχολιασμό δεδομένων, τελειοποίηση μοντέλων και ανάπτυξη προσαρμοσμένα σε συγκεκριμένες περιπτώσεις χρήσης. Αυτή η συνεργασία απλοποιεί την προσαρμογή για βιομηχανίες που βασίζονται στην όραση υπολογιστών.
Η πρόσβαση και στα δύο μοντέλα πραγματοποιείται μέσω της πλατφόρμας Segment Anything Playground που αναπτύχθηκε από τη Meta, σχεδιασμένη για χρήστες χωρίς προηγμένες τεχνικές δεξιότητες. Η Meta καθιστά διαθέσιμα τα βάρη μοντέλων για το SAM 3, μαζί με τα σημεία αναφοράς αξιολόγησης και τις σχετικές ερευνητικές εργασίες. Για το SAM 3D, η εταιρεία μοιράζεται σημεία ελέγχου μοντέλων και κώδικα συμπερασμάτων ειδικά με μέλη της ερευνητικής κοινότητας, προωθώντας περαιτέρω ακαδημαϊκή και πειραματική ανάπτυξη.
Σε πρακτικές εφαρμογές, το SAM 3 ενσωματώνεται στην εφαρμογή δημιουργίας βίντεο Edits της Meta και στην πλατφόρμα Vibes, όπου δημιουργεί εφέ που επιτρέπουν τροποποιήσεις σε καθορισμένα αντικείμενα σε βίντεο. Οι δημιουργοί μπορούν έτσι να επεξεργάζονται στοιχεία επιλεκτικά χωρίς να επηρεάζουν το περιβάλλον περιεχόμενο. Ξεχωριστά, το SAM 3D υποστηρίζει τη λειτουργία «Προβολή στο δωμάτιο» στο Facebook Marketplace, επιτρέποντας στους αγοραστές να τοποθετούν εικονικές αναπαραστάσεις επίπλων και ειδών διακόσμησης σπιτιού στο δικό τους περιβάλλον για προεπισκόπηση πριν από την απόκτηση.
VIA: DataConomy.com










