Η Apple κυκλοφόρησε το Pico-Banana-400K, ένα εξαιρετικά επιμελημένο ερευνητικό σύνολο 400.000 εικόνων, το οποίο, ενδιαφέροντα, κατασκευάστηκε χρησιμοποιώντας τα μοντέλα Gemini-2.5 της Google. Εδώ είναι οι λεπτομέρειες.
Η ερευνητική ομάδα της Apple δημοσίευσε μια ενδιαφέρουσα μελέτη που ονομάζεται «Pico-Banana-400K: Ένα σύνολο δεδομένων μεγάλης κλίμακας για επεξεργασία εικόνας με καθοδήγηση κειμένου».
Εκτός από τη μελέτη, κυκλοφόρησαν επίσης το πλήρες σύνολο δεδομένων 400.000 εικόνων που παρήγαγε, το οποίο διαθέτει άδεια μη εμπορικής έρευνας. Αυτό σημαίνει ότι ο καθένας μπορεί να το χρησιμοποιήσει και να το εξερευνήσει, υπό την προϋπόθεση ότι είναι για ακαδημαϊκό έργο ή ερευνητικούς σκοπούς AI. Με άλλα λόγια, δεν μπορεί να χρησιμοποιηθεί εμπορικά.
Σωστά, αλλά τι είναι;
Πριν από λίγους μήνες, η Google κυκλοφόρησε το μοντέλο Gemini-2.5-Flash-Image, γνωστό και ως Nanon-Banana, το οποίο είναι αναμφισβήτητα το πιο σύγχρονο όταν πρόκειται για μοντέλα επεξεργασίας εικόνας.
Άλλα μοντέλα έχουν επίσης παρουσιάσει σημαντικές βελτιώσεις, αλλά, όπως το έθεσαν οι ερευνητές της Apple:
“Παρά αυτές τις προόδους, η ανοιχτή έρευνα παραμένει περιορισμένη λόγω της έλλειψης συνόλων δεδομένων επεξεργασίας μεγάλης κλίμακας, υψηλής ποιότητας και πλήρως κοινοποιήσιμα. Τα υπάρχοντα σύνολα δεδομένων συχνά βασίζονται σε συνθετικές γενιές από ιδιόκτητα μοντέλα ή περιορισμένα υποσύνολα που επιμελούνται από τον άνθρωπο. Επιπλέον, αυτά τα σύνολα δεδομένων συχνά εμφανίζουν μετατοπίσεις τομέα, αστάθμητα σύνολα δεδομένων. μοντέλα.”
Έτσι, η Apple ξεκίνησε να κάνει κάτι γι ‘αυτό.
Κτίριο Pico-Banana-400K
Το πρώτο πράγμα που έκανε η Apple ήταν να έβγαλε έναν απροσδιόριστο αριθμό πραγματικών φωτογραφιών από το σύνολο δεδομένων OpenImages, «που επιλέχθηκαν για να εξασφαλίσουν κάλυψη ανθρώπων, αντικειμένων και σκηνικών κειμένου».

Στη συνέχεια, κατέληξε σε μια λίστα με 35 διαφορετικούς τύπους αλλαγών που ένας χρήστης μπορούσε να ζητήσει από το μοντέλο να κάνει, ομαδοποιημένες σε οκτώ κατηγορίες. Για παράδειγμα:
- Προσθέστε κόκκους φιλμ ή vintage φίλτρο
- Ανθρωποκεντρική: Φιγούρα παιχνιδιού σε στυλ Funko-Pop του ατόμου
- Αλλαγή καιρικών συνθηκών (ηλιοφάνεια/βροχή/χιόνι)
- Σημασιολογία σε επίπεδο αντικειμένου: Μετατόπιση αντικειμένου (αλλαγή θέσης/χωρικής σχέσης του)
- Κλίμακα: Μεγέθυνση
Στη συνέχεια, οι ερευνητές θα ανέβαζαν μια εικόνα στο Nano-Banana, μαζί με ένα από αυτά τα μηνύματα. Μόλις ολοκληρωθεί η δημιουργία της επεξεργασμένης εικόνας από το Nano-Banana, οι ερευνητές θα έβαλαν στη συνέχεια το Gemini-2.5-Pro να αναλύσει το αποτέλεσμα, είτε εγκρίνοντάς το είτε απορρίπτοντάς το, με βάση τη συμμόρφωση με τις οδηγίες και την οπτική ποιότητα.

Το αποτέλεσμα έγινε Pico-Banana-400K, το οποίο περιλαμβάνει εικόνες που παράγονται μέσω επεξεργασιών μίας στροφής (μία μόνο προτροπή), ακολουθίες επεξεργασίας πολλών στροφών (πολλαπλές επαναληπτικές προτροπές) και ζεύγη προτιμήσεων που συγκρίνουν επιτυχημένα και αποτυχημένα αποτελέσματα (έτσι τα μοντέλα μπορούν επίσης να μάθουν πώς μοιάζουν με ανεπιθύμητα αποτελέσματα).

Αν και αναγνωρίζουν τους περιορισμούς του Nano-Banana στη λεπτομερή χωρική επεξεργασία, την παρέκταση διάταξης και την τυπογραφία, οι ερευνητές λένε ότι ελπίζουν ότι το Pico-Banana-400K θα χρησιμεύσει ως «ένα ισχυρό θεμέλιο για την εκπαίδευση και τη συγκριτική αξιολόγηση της επόμενης γενιάς μοντέλων επεξεργασίας εικόνας με καθοδήγηση κειμένου».
Μπορείτε να βρείτε τη μελέτη στο arXivκαι το σύνολο δεδομένων είναι δωρεάν διαθέσιμο στο GitHub.
Προσφορές αξεσουάρ στο Amazon
Via: 9to5mac.com








