Η Apple κυκλοφόρησε Pico-Banana-400Kένα τεράστιο σύνολο δεδομένων υψηλής ποιότητας με σχεδόν 400.000 παραδείγματα επεξεργασίας εικόνων. Το νέο σύνολο δεδομένων, αναλυτικά σε ένα ακαδημαϊκή εργασία δημοσιεύτηκε στις 23 Οκτωβρίου 2025, κατασκευάστηκε από ερευνητές της Apple, συμπεριλαμβανομένων των Yusu Qian, Jialing Tong και Zhe Gan. Αυτό έχει σημασία επειδή η κοινότητα της AI έχει συγκρατηθεί από την έλλειψη μεγάλης κλίμακας, ανοιχτών και ρεαλιστικών συνόλων δεδομένων. Τα περισσότερα προηγούμενα σύνολα δεδομένων ήταν είτε συνθετικά, χαμηλής ποιότητας ή κατασκευασμένα με ιδιόκτητα μοντέλα. Ο νέος πόρος της Apple, ο οποίος είναι κατασκευασμένος από πραγματικές φωτογραφίες, έχει σχεδιαστεί για να αποτελέσει μια ισχυρή βάση για την εκπαίδευση της επόμενης γενιάς μοντέλων επεξεργασίας εικόνων καθοδηγούμενων από κείμενο, από απλές επεξεργασίες έως σύνθετα δημιουργικά έργα πολλαπλών βημάτων.
Πώς κατασκευάστηκε το Pico-Banana-400K
Αντί για την παλιά, δαπανηρή μέθοδο πληρωμής των ανθρώπων για να επεξεργαστούν με μη αυτόματο τρόπο εκατοντάδες χιλιάδες εικόνες, η ομάδα της Apple δημιούργησε έναν εξελιγμένο, αυτοματοποιημένο αγωγό χρησιμοποιώντας άλλα ισχυρά μοντέλα τεχνητής νοημοσύνης. . Πρώτα, άντλησαν πραγματικές φωτογραφίες από το OpenImages συλλογή. Στη συνέχεια, χρησιμοποίησαν το μοντέλο Nano-Banana της Google για να δημιουργήσουν ένα ευρύ φάσμα τροποποιήσεων που βασίζονται σε μια ολοκληρωμένη ταξινόμηση 35 διαφορετικών τύπων επεξεργασίας, από την “αλλαγή χρώματος” έως την “εφαρμογή εποχιακού μετασχηματισμού”.
Αλλά εδώ είναι το έξυπνο μέρος: για να εξασφαλίσουν την ποιότητα, χρησιμοποίησαν ένα άλλο AI, Gemini-2.5-Proως αυτοματοποιημένος «κριτής». Αυτός ο κριτής AI σημείωσε κάθε τροποποίηση με τέσσερα κριτήρια: Συμμόρφωση με οδηγίες (40%), ασάφεια (25%), Υπόλοιπο διατήρησης (20%)και Τεχνική ποιότητα (15%). Οι τροποποιήσεις που σημείωσαν βαθμολογία πάνω από το όριο 0,7 ονομάστηκαν “επιτυχείς”. Οι τροποποιήσεις που απέτυχαν διατηρήθηκαν ως “αρνητικά παραδείγματα”. Αυτή η διαδικασία δημιουργεί ένα σύνολο δεδομένων υψηλής ποιότητας χωρίς έναν μόνο ανθρώπινο σχολιαστή, με συνολικό κόστος περίπου 100.000 $.
Περισσότερο από απλές επεξεργασίες
Η πραγματική δύναμη του Pico-Banana-400K δεν είναι μόνο το μέγεθός του. είναι τα εξειδικευμένα υποσύνολα που έχουν σχεδιαστεί για την επίλυση σύνθετων ερευνητικών προβλημάτων. Το πλήρες σύνολο δεδομένων περιλαμβάνει:
- 258K επεξεργασίες μίας στροφής: Το βασικό σύνολο δεδομένων τριπλών (πριν, μετά, οδηγίες) για βασική εκπαίδευση μοντέλων.
- Παραδείγματα πολλαπλών στροφών 72K: Αυτό το υποσύνολο περιέχει “συνεδρίες επεξεργασίας” με 2-5 διαδοχικές τροποποιήσεις. . Αυτό είναι ζωτικής σημασίας για τη διδασκαλία μοντέλων τεχνητής νοημοσύνης πώς να χειρίζονται διαδοχικές εντολές, να αιτιολογούν τις αλλαγές με την πάροδο του χρόνου και να κατανοούν το πλαίσιο (π.χ. “προσθέστε ένα καπέλο στον άντρα”, ακολουθούμενο από “τώρα κάντε το μπλε”).
- 56K ζεύγη προτιμήσεων: Αποθηκεύοντας τις “επιτυχείς” και “αποτυχημένες” επεξεργασίες για την ίδια οδηγία, αυτό το υποσύνολο επιτρέπει στους ερευνητές να εκπαιδεύσουν μοντέλα ανταμοιβής AI και να βελτιώσουν την ευθυγράμμιση, διδάσκοντας μοντέλα να κατανοούν Γιατί μια τροποποίηση είναι καλύτερη από την άλλη.
- Οδηγίες ζεύξης: Κάθε τροποποίηση συνοδεύεται από δύο τύπους οδηγιών: μια μεγάλη, λεπτομερή προτροπή ιδανική για εκπαίδευση και μια σύντομη, συνοπτική εντολή “στυλ χρήστη” (π.χ. “κάντε τον ουρανό χιονισμένο”) για να μιμηθεί τον τρόπο με τον οποίο πληκτρολογούν πραγματικοί άνθρωποι.
Τι σημαίνει αυτό για τους μελλοντικούς συντάκτες τεχνητής νοημοσύνης
Αναλύοντας τα «ποσοστά επιτυχίας» του δικού της αγωγού, η ομάδα της Apple δημιούργησε επίσης έναν σαφή χάρτη του σε τι είναι καλοί οι επεξεργαστές εικόνων AI και πού εξακολουθούν να αποτυγχάνουν. Οι παγκόσμιες επεξεργασίες όπως “προσθέστε ένα vintage φίλτρο” (90% επιτυχία) είναι εύκολες. Οι επεξεργασίες σε επίπεδο αντικειμένου όπως “αφαίρεση αυτού του αυτοκινήτου” (83% επιτυχία) είναι αρκετά καλές. Αλλά οι επεξεργασίες που απαιτούν ακριβή χωρικό έλεγχο ή συμβολική κατανόηση παραμένουν «εύθραυστες» και είναι πλέον ανοιχτά προβλήματα προς επίλυση από τους ερευνητές.
Τα πιο δύσκολα καθήκοντα; Μετακίνηση αντικειμένου (59% επιτυχία), αλλαγή γραμματοσειράς (57% επιτυχία) και δημιουργία καρικατούρες (58% επιτυχία). Με τη δημιουργία ανοιχτού κώδικα αυτού του συνόλου δεδομένων, η Apple ουσιαστικά δίνει σε ολόκληρη την κοινότητα της τεχνητής νοημοσύνης ένα υψηλής ποιότητας «γυμναστήριο» για να εκπαιδεύσει τα μοντέλα της και μια σαφή λίστα προκλήσεων που πρέπει να αντιμετωπίσουν στη συνέχεια.
VIA: DataConomy.com







