Λίγο πριν την έναρξη του νέου έτους, η κοινότητα της τεχνητής νοημοσύνης εισήχθη σε μια πιθανή ανακάλυψη στην εκπαίδευση μοντέλων. Μια ομάδα ερευνητών από την κινεζική εταιρεία AI DeepSeek κυκλοφόρησε ένα χαρτί περιγράφοντας μια νέα αρχιτεκτονική προσέγγιση που ονομάζεται Manifold-Constrained Hyper-Connections ή mHC για συντομία. Αυτή η νέα μεθοδολογία μπορεί να παρέχει στους μηχανικούς μια διαδρομή για να κατασκευάσουν και να κλιμακώσουν μεγάλα γλωσσικά μοντέλα χωρίς το απαγορευτικό υπολογιστικό κόστος και το κεφάλαιο που συνήθως απαιτείται.
Το DeepSeek κατέλαβε για πρώτη φορά τα πολιτιστικά φώτα πριν από ένα χρόνο με την κυκλοφορία του R1. Αυτό το μοντέλο συναγωνιζόταν τις δυνατότητες του o1 του OpenAI, αλλά σύμφωνα με πληροφορίες εκπαιδεύτηκε με ένα κλάσμα του κόστους. Η κυκλοφορία προκάλεσε σοκ στους προγραμματιστές που εδρεύουν στις ΗΠΑ, επειδή αμφισβήτησε την υπόθεση ότι μόνο τεράστια αποθέματα κεφαλαίου και υλικού θα μπορούσαν να παράγουν τεχνητή νοημοσύνη αιχμής. Το πρόσφατα δημοσιευμένο χαρτί mHC, που φιλοξενείται στον διακομιστή προεκτύπωσης arXiv, θα μπορούσε να χρησιμεύσει ως το τεχνολογικό πλαίσιο για το επερχόμενο μοντέλο της DeepSeek, R2. Το μοντέλο R2 αναμενόταν αρχικά στα μέσα του 2025 αλλά αναβλήθηκε, σύμφωνα με πληροφορίες λόγω ανησυχιών του Διευθύνοντος Συμβούλου Liang Wenfeng σχετικά με την απόδοση και την περιορισμένη πρόσβαση της Κίνας σε προηγμένα τσιπ τεχνητής νοημοσύνης.
Το νέο έγγραφο επιχειρεί να γεφυρώσει ένα περίπλοκο τεχνικό κενό που επί του παρόντος εμποδίζει την επεκτασιμότητα της τεχνητής νοημοσύνης. Τα μεγάλα γλωσσικά μοντέλα είναι χτισμένα σε νευρωνικά δίκτυα σχεδιασμένα να διατηρούν σήματα σε πολλά επίπεδα. Ωστόσο, καθώς το μοντέλο μεγαλώνει και προστίθενται περισσότερα στρώματα, το σήμα μπορεί να εξασθενήσει ή να υποβαθμιστεί, αυξάνοντας τον κίνδυνο να μετατραπεί σε θόρυβο. Οι ερευνητές το παρομοιάζουν με ένα παιχνίδι «τηλεφώνου»: όσο περισσότεροι άνθρωποι εμπλέκονται στην αλυσίδα, τόσο μεγαλύτερη είναι η πιθανότητα να μπερδευτεί ή να αλλοιωθεί το αρχικό μήνυμα. Η βασική πρόκληση της μηχανικής είναι η βελτιστοποίηση της αντιστάθμισης μεταξύ πλαστικότητας και σταθερότητας, διασφαλίζοντας ότι τα σήματα διατηρούνται σε όσο το δυνατόν περισσότερα στρώματα χωρίς υποβάθμιση.
Οι συγγραφείς της εργασίας, συμπεριλαμβανομένου του Διευθύνοντος Συμβούλου Liang Wenfeng, έχτισαν την έρευνά τους πάνω σε υπερσυνδέσεις (HCs), ένα πλαίσιο που εισήχθη το 2024 από ερευνητές της ByteDance. Τα τυπικά HC διαφοροποιούν τα κανάλια μέσω των οποίων τα επίπεδα νευρωνικών δικτύων μοιράζονται πληροφορίες, αλλά εισάγουν τον κίνδυνο απώλειας σήματος και συνοδεύονται από υψηλό κόστος μνήμης που καθιστά δύσκολη την εφαρμογή τους σε κλίμακα. Η αρχιτεκτονική mHC του DeepSeek στοχεύει να το λύσει περιορίζοντας την υπερσυνδεσιμότητα μέσα σε ένα μοντέλο. Αυτή η προσέγγιση διατηρεί την πληροφοριακή πολυπλοκότητα που επιτρέπουν οι HC ενώ παρακάμπτει τα ζητήματα της μνήμης, επιτρέποντας την εκπαίδευση εξαιρετικά πολύπλοκων μοντέλων με τρόπο πρακτικό ακόμη και για προγραμματιστές με περιορισμένους πόρους.
Το ντεμπούτο του πλαισίου mHC υποδηλώνει μια στροφή στην εξέλιξη της ανάπτυξης AI. Μέχρι πρόσφατα, η επικρατούσα σοφία του κλάδου πίστευε ότι μόνο οι πιο πλούσιες εταιρείες είχαν την οικονομική δυνατότητα να κατασκευάσουν μοντέλα συνόρων. Το DeepSeek συνεχίζει να αποδεικνύει ότι οι καινοτομίες μπορούν να επιτευχθούν μέσω έξυπνης μηχανικής και όχι ωμής οικονομικής δύναμης. Δημοσιεύοντας αυτήν την έρευνα, το DeepSeek έχει διαθέσει τη μέθοδο mHC σε μικρότερους προγραμματιστές, εκδημοκρατίζοντας ενδεχομένως την πρόσβαση σε προηγμένες δυνατότητες AI, εάν αυτή η αρχιτεκτονική αποδειχθεί επιτυχημένη στο αναμενόμενο μοντέλο R2.
VIA: DataConomy.com

