Με τόσα πολλά χρήματα να πλημμυρίζουν σε νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης, είναι καλή στιγμή να είσαι ερευνητής τεχνητής νοημοσύνης με μια ιδέα να δοκιμάσεις. Και αν η ιδέα είναι αρκετά νέα, μπορεί να είναι ευκολότερο να αποκτήσετε τους πόρους που χρειάζεστε ως ανεξάρτητη εταιρεία αντί να βρίσκεστε σε ένα από τα μεγάλα εργαστήρια.
Αυτή είναι η ιστορία της Inception, μιας startup που αναπτύσσει μοντέλα τεχνητής νοημοσύνης με βάση τη διάχυση που μόλις συγκέντρωσε 50 εκατομμύρια δολάρια σε χρηματοδότηση εκκίνησης με επικεφαλής την Menlo Ventures. Ο Andrew Ng και ο Andrej Karpathy παρείχαν πρόσθετη χρηματοδότηση αγγέλων.
Επικεφαλής του έργου είναι ο καθηγητής του Στάνφορντ Στέφανο Έρμον, του οποίου η έρευνα επικεντρώνεται σε μοντέλα διάχυσης — τα οποία παράγουν αποτελέσματα μέσω επαναληπτικής βελτίωσης και όχι λέξη προς λέξη. Αυτά τα μοντέλα τροφοδοτούν συστήματα AI που βασίζονται σε εικόνες, όπως το Stable Diffusion, το Midjourney και το Sora. Έχοντας δουλέψει σε αυτά τα συστήματα από τότε που η έκρηξη της τεχνητής νοημοσύνης τα κάνει συναρπαστικά, η Ermon χρησιμοποιεί το Inception για να εφαρμόσει τα ίδια μοντέλα σε ένα ευρύτερο φάσμα εργασιών.
Μαζί με τη χρηματοδότηση, η εταιρεία κυκλοφόρησε μια νέα έκδοση του μοντέλου Mercury, σχεδιασμένη για ανάπτυξη λογισμικού. Το Mercury έχει ήδη ενσωματωθεί σε μια σειρά από εργαλεία ανάπτυξης, συμπεριλαμβανομένων των ProxyAI, Buildglare και Kilo Code. Το πιο σημαντικό, ο Ermon λέει ότι η προσέγγιση διάχυσης θα βοηθήσει τα μοντέλα της Inception να διατηρήσουν δύο από τις πιο σημαντικές μετρήσεις: την καθυστέρηση (χρόνος απόκρισης) και τον υπολογισμό του κόστους.
«Αυτά τα LLM που βασίζονται στη διάχυση είναι πολύ πιο γρήγορα και πολύ πιο αποτελεσματικά από αυτά που κατασκευάζουν όλοι σήμερα», λέει ο Έρμον. “Είναι απλώς μια εντελώς διαφορετική προσέγγιση όπου υπάρχει πολλή καινοτομία που μπορεί ακόμα να τεθεί στο τραπέζι.”
Η κατανόηση της τεχνικής διαφοράς απαιτεί λίγο υπόβαθρο. Τα μοντέλα διάχυσης διαφέρουν δομικά από τα μοντέλα αυτόματης παλινδρόμησης, τα οποία κυριαρχούν στις υπηρεσίες τεχνητής νοημοσύνης που βασίζονται σε κείμενο. Τα μοντέλα αυτόματης παλινδρόμησης, όπως το GPT-5 και το Gemini, λειτουργούν διαδοχικά, προβλέποντας κάθε επόμενη λέξη ή θραύσμα λέξης με βάση το προηγουμένως επεξεργασμένο υλικό. Τα μοντέλα διάχυσης, εκπαιδευμένα για τη δημιουργία εικόνων, ακολουθούν μια πιο ολιστική προσέγγιση, τροποποιώντας τη συνολική δομή μιας απόκρισης σταδιακά μέχρι να ταιριάζει με το επιθυμητό αποτέλεσμα.
Η συμβατική σοφία είναι να χρησιμοποιούνται μοντέλα αυτόματης παλινδρόμησης για εφαρμογές κειμένου και αυτή η προσέγγιση ήταν εξαιρετικά επιτυχημένη για τις πρόσφατες γενιές μοντέλων τεχνητής νοημοσύνης. Ωστόσο, ένας αυξανόμενος όγκος ερευνών προτείνει ότι τα μοντέλα διάχυσης μπορεί να έχουν καλύτερη απόδοση όταν ένα μοντέλο είναι επεξεργασία μεγάλων ποσοτήτων κειμένου ή διαχείριση των περιορισμών δεδομένων. Όπως λέει ο Ermon, αυτές οι ιδιότητες γίνονται πραγματικό πλεονέκτημα κατά την εκτέλεση εργασιών σε μεγάλες βάσεις κωδικών.
Εκδήλωση Techcrunch
Σαν Φρανσίσκο
|
13-15 Οκτωβρίου 2026
Τα μοντέλα διάχυσης έχουν επίσης μεγαλύτερη ευελιξία στον τρόπο με τον οποίο χρησιμοποιούν το υλικό, ένα ιδιαίτερα σημαντικό πλεονέκτημα καθώς οι απαιτήσεις υποδομής της τεχνητής νοημοσύνης γίνονται σαφείς. Όπου τα μοντέλα αυτόματης παλινδρόμησης πρέπει να εκτελούν λειτουργίες η μία μετά την άλλη, τα μοντέλα διάχυσης μπορούν να επεξεργαστούν πολλές λειτουργίες ταυτόχρονα, επιτρέποντας σημαντικά χαμηλότερο λανθάνοντα χρόνο σε πολύπλοκες εργασίες.
“Έχουμε συγκριθεί με πάνω από 1.000 διακριτικά ανά δευτερόλεπτο, κάτι που είναι πολύ υψηλότερο από οτιδήποτε είναι δυνατό χρησιμοποιώντας τις υπάρχουσες τεχνολογίες αυτόματης παλινδρόμησης”, λέει ο Έρμον, “επειδή το πράγμα μας είναι κατασκευασμένο για να είναι παράλληλο. Είναι φτιαγμένο για να είναι πραγματικά, πολύ γρήγορο.”
Via: techcrunch.com







