Google DeepMind κοινόχρηστο την Πέμπτη μια προεπισκόπηση έρευνας του SIMA 2, της επόμενης γενιάς του γενικού πράκτορα AI που ενσωματώνει τη γλώσσα και τις συλλογιστικές δυνάμεις του Gemini, του μεγάλου γλωσσικού μοντέλου της Google, για να προχωρήσει πέρα από την απλή παρακολούθηση των οδηγιών στην κατανόηση και την αλληλεπίδραση με το περιβάλλον του.
Όπως πολλά από τα έργα της DeepMind, συμπεριλαμβανομένου του AlphaFold, η πρώτη έκδοση του SIMA εκπαιδεύτηκε σε εκατοντάδες ώρες δεδομένων βιντεοπαιχνιδιών για να μάθει πώς να παίζει πολλά τρισδιάστατα παιχνίδια σαν άνθρωπος, ακόμη και ορισμένα παιχνίδια στα οποία δεν είχε εκπαιδευτεί. Το SIMA 1, που αποκαλύφθηκε τον Μάρτιο του 2024, μπορούσε να ακολουθήσει βασικές οδηγίες σε ένα ευρύ φάσμα εικονικών περιβαλλόντων, αλλά είχε ποσοστό επιτυχίας μόνο 31% για την ολοκλήρωση πολύπλοκων εργασιών, σε σύγκριση με 71% για τους ανθρώπους.
«Το SIMA 2 είναι ένα βήμα αλλαγής και βελτίωσης των δυνατοτήτων σε σχέση με το SIMA 1», δήλωσε ο Joe Marino, ανώτερος ερευνητής στο DeepMind, σε μια ενημέρωση τύπου. “Είναι ένας πιο γενικός πράκτορας. Μπορεί να ολοκληρώσει πολύπλοκες εργασίες σε περιβάλλοντα που δεν είχαν δει προηγουμένως. Και είναι ένας παράγοντας αυτοβελτίωσης. Έτσι μπορεί πραγματικά να αυτοβελτιωθεί με βάση τη δική του εμπειρία, κάτι που είναι ένα βήμα προς πιο γενικής χρήσης ρομπότ και συστήματα AGI γενικότερα.”
Το SIMA 2 τροφοδοτείται από το μοντέλο Gemini 2.5 flash-lite και το AGI αναφέρεται στην τεχνητή γενική νοημοσύνη, την οποία η DeepMind ορίζει ως ένα σύστημα ικανό για ένα ευρύ φάσμα πνευματικών εργασιών με δυνατότητα εκμάθησης νέων δεξιοτήτων και γενίκευσης της γνώσης σε διαφορετικούς τομείς.
Η συνεργασία με τους λεγόμενους «ενσωματωμένους πράκτορες» είναι κρίσιμη για τη γενικευμένη νοημοσύνη, λένε οι ερευνητές του DeepMind. Ο Marino εξήγησε ότι ένας ενσωματωμένος πράκτορας αλληλεπιδρά με έναν φυσικό ή εικονικό κόσμο μέσω ενός σώματος — παρατηρώντας εισόδους και κάνοντας ενέργειες όπως ένα ρομπότ ή ένας άνθρωπος — ενώ ένας μη ενσωματωμένος πράκτορας μπορεί να αλληλεπιδράσει με το ημερολόγιό σας, να κρατήσει σημειώσεις ή να εκτελέσει κώδικα.
Η Jane Wang, ανώτερη ερευνήτρια του προσωπικού στο DeepMind με υπόβαθρο στις νευροεπιστήμες, είπε στο TechCrunch ότι το SIMA 2 ξεπερνά το παιχνίδι.
«Του ζητάμε να καταλάβει πραγματικά τι συμβαίνει, να καταλάβει τι του ζητά ο χρήστης και στη συνέχεια να μπορέσει να ανταποκριθεί με έναν τρόπο κοινής λογικής που στην πραγματικότητα είναι αρκετά δύσκολος», είπε ο Wang.
Εκδήλωση Techcrunch
Σαν Φρανσίσκο
|
13-15 Οκτωβρίου 2026
Με την ενσωμάτωση του Gemini, το SIMA 2 διπλασίασε τις επιδόσεις του προκατόχου του, ενώνοντας τις προηγμένες γλωσσικές και συλλογιστικές ικανότητες του Gemini με τις ενσωματωμένες δεξιότητες που αναπτύχθηκαν μέσω της εκπαίδευσης.

Ο Μαρίνο παρουσίασε το SIMA 2 στο “No Man’s Sky”, όπου ο πράκτορας περιέγραψε το περιβάλλον του – μια βραχώδη επιφάνεια πλανήτη – και καθόρισε τα επόμενα βήματά του αναγνωρίζοντας και αλληλεπιδρώντας με έναν φάρο κινδύνου. Το SIMA 2 χρησιμοποιεί επίσης τον Δίδυμο για να συλλογιστεί εσωτερικά. Σε ένα άλλο παιχνίδι, όταν του ζητήθηκε να περπατήσει στο σπίτι που έχει το χρώμα μιας ώριμης ντομάτας, ο πράκτορας έδειξε τη σκέψη του – οι ώριμες ντομάτες είναι κόκκινες, επομένως θα έπρεπε να πάω στο κόκκινο σπίτι – μετά το βρήκε και το πλησίασε.
Το να είσαι τροφοδοτημένος με Gemini σημαίνει επίσης ότι το SIMA 2 ακολουθεί τις οδηγίες που βασίζονται σε emoji: «Εσύ το δίνεις οδηγίες 🪓🌲 και θα κόψει ένα δέντρο», είπε ο Μαρίνο.
Ο Marino έδειξε επίσης πώς το SIMA 2 μπορεί να πλοηγηθεί σε νέους φωτορεαλιστικούς κόσμους που παράγονται από το Genie, το παγκόσμιο μοντέλο του DeepMind, αναγνωρίζοντας και αλληλεπιδρώντας σωστά με αντικείμενα όπως παγκάκια, δέντρα και πεταλούδες.

Ο Δίδυμος επιτρέπει επίσης την αυτοβελτίωση χωρίς πολλά ανθρώπινα δεδομένα, πρόσθεσε ο Μαρίνο. Όπου το SIMA 1 εκπαιδεύτηκε εξ ολοκλήρου στο ανθρώπινο παιχνίδι, το SIMA 2 το χρησιμοποιεί ως βάση για να παρέχει ένα ισχυρό αρχικό μοντέλο. Όταν η ομάδα τοποθετεί τον πράκτορα σε ένα νέο περιβάλλον, ζητά από ένα άλλο μοντέλο Gemini να δημιουργήσει νέες εργασίες και ένα ξεχωριστό μοντέλο ανταμοιβής για να βαθμολογήσει τις προσπάθειες του πράκτορα. Χρησιμοποιώντας αυτές τις δημιουργούμενες εμπειρίες ως δεδομένα εκπαίδευσης, ο πράκτορας μαθαίνει από τα δικά του λάθη και σταδιακά αποδίδει καλύτερα, διδάσκοντας ουσιαστικά νέες συμπεριφορές μέσω δοκιμών και σφαλμάτων όπως θα έκανε ένας άνθρωπος, καθοδηγούμενος από ανατροφοδότηση που βασίζεται σε AI αντί για ανθρώπους.
Η DeepMind βλέπει το SIMA 2 ως ένα βήμα προς το ξεκλείδωμα περισσότερων ρομπότ γενικής χρήσης.
«Αν σκεφτούμε τι πρέπει να κάνει ένα σύστημα για να εκτελέσει εργασίες στον πραγματικό κόσμο, όπως ένα ρομπότ, νομίζω ότι υπάρχουν δύο στοιχεία του», δήλωσε ο Frederic Besse, ανώτερος ερευνητής μηχανικός στο DeepMind, κατά τη διάρκεια μιας ενημέρωσης τύπου. «Πρώτον, υπάρχει μια υψηλού επιπέδου κατανόηση του πραγματικού κόσμου και του τι πρέπει να γίνει, καθώς και κάποια λογική».
Εάν ζητήσετε από ένα ανθρωποειδές ρομπότ στο σπίτι σας να πάει να ελέγξει πόσα κουτάκια με φασόλια έχετε στο ντουλάπι, το σύστημα πρέπει να κατανοήσει όλες τις διαφορετικές έννοιες – τι είναι τα φασόλια, τι είναι το ντουλάπι – και να πλοηγηθεί σε αυτήν τη θέση. Ο Besse λέει ότι το SIMA 2 αγγίζει περισσότερο αυτή τη συμπεριφορά υψηλού επιπέδου παρά για ενέργειες χαμηλότερου επιπέδου, τις οποίες αναφέρει ότι ελέγχει πράγματα όπως φυσικές αρθρώσεις και τροχούς.
Η ομάδα αρνήθηκε να μοιραστεί ένα συγκεκριμένο χρονοδιάγραμμα για την εφαρμογή του SIMA 2 σε συστήματα φυσικής ρομποτικής. Ο Besse είπε στο TechCrunch ότι το DeepMind’s πρόσφατα αποκαλύφθηκε Τα μοντέλα θεμελίωσης ρομποτικής — τα οποία μπορούν επίσης να συλλογιστούν για τον φυσικό κόσμο και να δημιουργήσουν σχέδια πολλαπλών βημάτων για την ολοκλήρωση μιας αποστολής — εκπαιδεύτηκαν διαφορετικά και χωριστά από το SIMA.
Αν και δεν υπάρχει επίσης χρονοδιάγραμμα για την κυκλοφορία περισσότερων από μια προεπισκόπηση του SIMA 2, ο Wang είπε στο TechCrunch ότι ο στόχος είναι να δείξει στον κόσμο τι εργάζεται η DeepMind και να δει τι είδους συνεργασίες και πιθανές χρήσεις είναι δυνατές.
Via: techcrunch.com










