Η DeepSeek εισάγει υπερ-συνδέσεις με πολλαπλές περιορισμούς για το R2

Λίγο πριν την έναρξη του νέου έτους, η κοινότητα της τεχνητής νοημοσύνης εισήχθη σε μια πιθανή ανακάλυψη στην εκπαίδευση μοντέλων. Μια ομάδα ερευνητών από την κινεζική εταιρεία AI DeepSeek κυκλοφόρησε ένα χαρτί περιγράφοντας μια νέα αρχιτεκτονική προσέγγιση που ονομάζεται Manifold-Constrained Hyper-Connections ή mHC για συντομία. Αυτή η νέα μεθοδολογία μπορεί να παρέχει στους μηχανικούς μια διαδρομή για να κατασκευάσουν και να κλιμακώσουν μεγάλα γλωσσικά μοντέλα χωρίς το απαγορευτικό υπολογιστικό κόστος και το κεφάλαιο που συνήθως απαιτείται.

Το DeepSeek κατέλαβε για πρώτη φορά τα πολιτιστικά φώτα πριν από ένα χρόνο με την κυκλοφορία του R1. Αυτό το μοντέλο συναγωνιζόταν τις δυνατότητες του o1 του OpenAI, αλλά σύμφωνα με πληροφορίες εκπαιδεύτηκε με ένα κλάσμα του κόστους. Η κυκλοφορία προκάλεσε σοκ στους προγραμματιστές που εδρεύουν στις ΗΠΑ, επειδή αμφισβήτησε την υπόθεση ότι μόνο τεράστια αποθέματα κεφαλαίου και υλικού θα μπορούσαν να παράγουν τεχνητή νοημοσύνη αιχμής. Το πρόσφατα δημοσιευμένο χαρτί mHC, που φιλοξενείται στον διακομιστή προεκτύπωσης arXiv, θα μπορούσε να χρησιμεύσει ως το τεχνολογικό πλαίσιο για το επερχόμενο μοντέλο της DeepSeek, R2. Το μοντέλο R2 αναμενόταν αρχικά στα μέσα του 2025 αλλά αναβλήθηκε, σύμφωνα με πληροφορίες λόγω ανησυχιών του Διευθύνοντος Συμβούλου Liang Wenfeng σχετικά με την απόδοση και την περιορισμένη πρόσβαση της Κίνας σε προηγμένα τσιπ τεχνητής νοημοσύνης.

Το νέο έγγραφο επιχειρεί να γεφυρώσει ένα περίπλοκο τεχνικό κενό που επί του παρόντος εμποδίζει την επεκτασιμότητα της τεχνητής νοημοσύνης. Τα μεγάλα γλωσσικά μοντέλα είναι χτισμένα σε νευρωνικά δίκτυα σχεδιασμένα να διατηρούν σήματα σε πολλά επίπεδα. Ωστόσο, καθώς το μοντέλο μεγαλώνει και προστίθενται περισσότερα στρώματα, το σήμα μπορεί να εξασθενήσει ή να υποβαθμιστεί, αυξάνοντας τον κίνδυνο να μετατραπεί σε θόρυβο. Οι ερευνητές το παρομοιάζουν με ένα παιχνίδι «τηλεφώνου»: όσο περισσότεροι άνθρωποι εμπλέκονται στην αλυσίδα, τόσο μεγαλύτερη είναι η πιθανότητα να μπερδευτεί ή να αλλοιωθεί το αρχικό μήνυμα. Η βασική πρόκληση της μηχανικής είναι η βελτιστοποίηση της αντιστάθμισης μεταξύ πλαστικότητας και σταθερότητας, διασφαλίζοντας ότι τα σήματα διατηρούνται σε όσο το δυνατόν περισσότερα στρώματα χωρίς υποβάθμιση.

Οι συγγραφείς της εργασίας, συμπεριλαμβανομένου του Διευθύνοντος Συμβούλου Liang Wenfeng, έχτισαν την έρευνά τους πάνω σε υπερσυνδέσεις (HCs), ένα πλαίσιο που εισήχθη το 2024 από ερευνητές της ByteDance. Τα τυπικά HC διαφοροποιούν τα κανάλια μέσω των οποίων τα επίπεδα νευρωνικών δικτύων μοιράζονται πληροφορίες, αλλά εισάγουν τον κίνδυνο απώλειας σήματος και συνοδεύονται από υψηλό κόστος μνήμης που καθιστά δύσκολη την εφαρμογή τους σε κλίμακα. Η αρχιτεκτονική mHC του DeepSeek στοχεύει να το λύσει περιορίζοντας την υπερσυνδεσιμότητα μέσα σε ένα μοντέλο. Αυτή η προσέγγιση διατηρεί την πληροφοριακή πολυπλοκότητα που επιτρέπουν οι HC ενώ παρακάμπτει τα ζητήματα της μνήμης, επιτρέποντας την εκπαίδευση εξαιρετικά πολύπλοκων μοντέλων με τρόπο πρακτικό ακόμη και για προγραμματιστές με περιορισμένους πόρους.

Το ντεμπούτο του πλαισίου mHC υποδηλώνει μια στροφή στην εξέλιξη της ανάπτυξης AI. Μέχρι πρόσφατα, η επικρατούσα σοφία του κλάδου πίστευε ότι μόνο οι πιο πλούσιες εταιρείες είχαν την οικονομική δυνατότητα να κατασκευάσουν μοντέλα συνόρων. Το DeepSeek συνεχίζει να αποδεικνύει ότι οι καινοτομίες μπορούν να επιτευχθούν μέσω έξυπνης μηχανικής και όχι ωμής οικονομικής δύναμης. Δημοσιεύοντας αυτήν την έρευνα, το DeepSeek έχει διαθέσει τη μέθοδο mHC σε μικρότερους προγραμματιστές, εκδημοκρατίζοντας ενδεχομένως την πρόσβαση σε προηγμένες δυνατότητες AI, εάν αυτή η αρχιτεκτονική αποδειχθεί επιτυχημένη στο αναμενόμενο μοντέλο R2.

Πίστωση επιλεγμένης εικόνας

VIA: DataConomy.com

Η DeepSeek εισάγει υπερ-συνδέσεις με πολλαπλές περιορισμούς για το R2

Αφήστε μια απάντηση Ακύρωση απάντησης

Stay Connected

Create an Amazing Newspaper

Latest News

Η Sedgwick επιβεβαιώνει την παραβίαση στη θυγατρική της κυβερνητικής εργολάβου

«Δείτε πώς η Hyundai φέρνει ανθρωποειδή ρομπότ στα εργοστάσιά της: Είναι η αρχή μιας νέας εποχής;»

Η Amazon βγάζει 200 $ για το M4 MacBook Air, ξεκινώντας από 799 $

Θα μου λείψουν νέα τηλέφωνα ASUS το 2026 για αυτόν τον ένα λόγο

We influence 20 million users and is the number one business and technology news network on the planet

Quick Link

Support

Sign Up for Our Newsletter

Μείνετε μπροστά από την καμπύλη!

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Αφήστε μια απάντηση Ακύρωση απάντησης

Stay Connected

Create an Amazing Newspaper

Latest News

Η Sedgwick επιβεβαιώνει την παραβίαση στη θυγατρική της κυβερνητικής εργολάβου

«Δείτε πώς η Hyundai φέρνει ανθρωποειδή ρομπότ στα εργοστάσιά της: Είναι η αρχή μιας νέας εποχής;»

Η Amazon βγάζει 200 ​​$ για το M4 MacBook Air, ξεκινώντας από 799 $

Θα μου λείψουν νέα τηλέφωνα ASUS το 2026 για αυτόν τον ένα λόγο

You Might also Like

Ανακαλύψτε το Κρυφό Αδύναμο Σημείο του DNA: Ένας Μυστικός Κόσμος που Αλλάζει Όλα!

Το Lemon Slice συλλέγει 10,5 εκατομμύρια δολάρια από την YC και τη Matrix για να αναπτύξει την τεχνολογία ψηφιακού avatar της

Το WhatsApp κυκλοφορεί το πακέτο αυτοκόλλητων 2026 και τα πυροτεχνήματα βιντεοκλήσεων

Join Us!

Η Amazon βγάζει 200 $ για το M4 MacBook Air, ξεκινώντας από 799 $