Οι ερευνητές της Apple δημοσίευσαν Pico-Banana-400Kένα ολοκληρωμένο σύνολο δεδομένων 400.000 επιμελημένων εικόνων που έχει σχεδιαστεί ειδικά για να βελτιώσει τον τρόπο με τον οποίο τα συστήματα τεχνητής νοημοσύνης επεξεργάζονται φωτογραφίες με βάση τα μηνύματα κειμένου.
Το τεράστιο σύνολο δεδομένων στοχεύει να αντιμετωπίσει αυτό που η Apple περιγράφει ως κενό στην τρέχουσα εκπαίδευση επεξεργασίας εικόνας AI. Ενώ συστήματα όπως το GPT-4o μπορούν να κάνουν εντυπωσιακές επεξεργασίες, οι ερευνητές λένε ότι η πρόοδος έχει περιοριστεί από τα ανεπαρκή δεδομένα εκπαίδευσης που έχουν δημιουργηθεί από πραγματικές φωτογραφίες. Το νέο σύνολο δεδομένων της Apple στοχεύει στη βελτίωση της κατάστασης.
Το Pico-Banana-400K διαθέτει εικόνες οργανωμένες σε 35 διαφορετικούς τύπους επεξεργασίας σε οκτώ κατηγορίες, από βασικές προσαρμογές όπως αλλαγές χρώματος έως σύνθετους μετασχηματισμούς, όπως η μετατροπή ατόμων σε χαρακτήρες στυλ Pixar ή φιγούρες LEGO. Κάθε εικόνα πέρασε από το σύστημα ελέγχου ποιότητας της Apple με τεχνητή νοημοσύνη, με το Gemini-2.5-Pro της Google να χρησιμοποιείται για την αξιολόγηση των αποτελεσμάτων με βάση τη συμμόρφωση με τις οδηγίες και την τεχνική ποιότητα.
Το σύνολο δεδομένων περιλαμβάνει επίσης τρία εξειδικευμένα υποσύνολα: 258.000 παραδείγματα απλής επεξεργασίας για βασική εκπαίδευση, 56.000 ζεύγη προτιμήσεων που συγκρίνουν επιτυχημένες και αποτυχημένες επεξεργασίες και 72.000 ακολουθίες πολλαπλών στροφών που δείχνουν πώς εξελίσσονται οι εικόνες μέσω πολλαπλών διαδοχικών επεξεργασιών.
Η Apple δημιούργησε το σύνολο δεδομένων χρησιμοποιώντας το μοντέλο επεξεργασίας Gemini-2.5-Flash-Image (γνωστό και ως Nano-Banana) της Google, το οποίο κυκλοφόρησε μόλις πριν από λίγους μήνες. Ωστόσο, η έρευνα της Apple αποκάλυψε τους περιορισμούς της. Ενώ οι παγκόσμιες αλλαγές στυλ πέτυχαν το 93% των περιπτώσεων, ακριβείς εργασίες όπως η μετεγκατάσταση αντικειμένων ή η επεξεργασία κειμένου δυσκολεύτηκαν σοβαρά, με ποσοστά επιτυχίας κάτω από 60%.


Παρά τους περιορισμούς, οι ερευνητές λένε ότι ο στόχος τους με το Pico-Banana-400K είναι να δημιουργήσουν «μια ισχυρή βάση για την εκπαίδευση και τη συγκριτική αξιολόγηση της επόμενης γενιάς μοντέλων επεξεργασίας εικόνων καθοδηγούμενων από κείμενο». Ο πλήρες σύνολο δεδομένων διατίθεται ελεύθερα για μη εμπορική ερευνητική χρήση στο GitHub, ώστε οι προγραμματιστές να μπορούν να το χρησιμοποιούν για να εκπαιδεύσουν πιο ικανό AI επεξεργασίας εικόνας.
VIA: macrumors.com







