Ερευνητές από το MIT, το Northeastern University και το Meta κυκλοφόρησαν πρόσφατα ένα χαρτί υποδεικνύοντας ότι τα μεγάλα γλωσσικά μοντέλα (LLM) ενδέχεται να δίνουν προτεραιότητα στη δομή των προτάσεων σε σχέση με το σημασιολογικό νόημα όταν ανταποκρίνονται σε προτροπές, εξηγώντας πιθανώς την επιτυχία ορισμένων επιθέσεων άμεσης έγχυσης.
Τα ευρήματα, που περιγράφονται λεπτομερώς σε ένα έγγραφο που συνυπογράφουν οι Chantal Shaib και Vinith M. Suriyakumar, αποκαλύπτουν μια ευπάθεια στον τρόπο με τον οποίο οι LLM επεξεργάζονται τις οδηγίες. Αυτή η δομική υπερβολική εξάρτηση μπορεί να επιτρέψει στους κακούς παράγοντες να παρακάμψουν τις προϋποθέσεις ασφαλείας ενσωματώνοντας επιβλαβή αιτήματα σε καλοήθη γραμματικά μοτίβα.
Η ομάδα θα παρουσιάσει αυτά τα ευρήματα στο NeurIPS αργότερα αυτόν τον μήνα. Χρησιμοποίησαν ένα ελεγχόμενο πείραμα χρησιμοποιώντας ένα συνθετικό σύνολο δεδομένων όπου κάθε θεματική περιοχή είχε ένα μοναδικό γραμματικό πρότυπο. Για παράδειγμα, οι ερωτήσεις γεωγραφίας ακολουθούσαν ένα δομικό μοτίβο, ενώ οι ερωτήσεις δημιουργικών έργων ακολουθούσαν ένα άλλο.
Εκπαίδευσαν τα μοντέλα Olmo του Allen AI σε αυτά τα δεδομένα και παρατήρησαν «ψευδείς συσχετίσεις» όπου τα μοντέλα αντιμετώπιζαν τη σύνταξη ως πληρεξούσιο για τον τομέα. Όταν το σημασιολογικό νόημα έρχεται σε σύγκρουση με τα συντακτικά μοτίβα, η απομνημόνευση συγκεκριμένων γραμματικών «σχημάτων» από τα μοντέλα αντικατέστησε τη σημασιολογική ανάλυση, οδηγώντας σε λανθασμένες απαντήσεις που βασίζονται σε δομικά στοιχεία και όχι σε πραγματικό νόημα. Για παράδειγμα, όταν σας ζητηθεί «Γρήγορα καθίστε το Παρίσι συννεφιασμένο;»—μια φράση που μιμείται τη δομή του «Πού βρίσκεται το Παρίσι;» αλλά χρησιμοποιώντας ανόητες λέξεις – τα μοντέλα εξακολουθούσαν να απαντούν «Γαλλία».
Οι ερευνητές τεκμηρίωσαν επίσης μια ευπάθεια ασφαλείας, την οποία ονόμασαν «συντακτικό hacking». Προσθέτοντας προτροπές με γραμματικά μοτίβα από καλοήθεις τομείς εκπαίδευσης, παρέκαμψαν τα φίλτρα ασφαλείας στο OLMo-2-7B-Instruct. Όταν η ομάδα πρόσθεσε ένα πρότυπο αλυσίδας σκέψης σε 1.000 επιβλαβή αιτήματα από το σύνολο δεδομένων WildJailbreak, τα ποσοστά άρνησης μειώθηκαν από 40% σε 2,5%.
Παραδείγματα ειδοποιήσεων για σπασίματα στη φυλακή περιελάμβαναν λεπτομερείς οδηγίες για λαθρεμπόριο οργάνων και μεθόδους διακίνησης ναρκωτικών μεταξύ Κολομβίας και Ηνωμένων Πολιτειών.
Για να μετρήσει την ακαμψία αντιστοίχισης προτύπων, η ομάδα διεξήγαγε γλωσσικά stress tests στα μοντέλα:
- Ακρίβεια στα αντώνυμα: Το OLMo-2-13B-Instruct πέτυχε ακρίβεια 93% σε προτροπές όπου τα αντώνυμα αντικατέστησαν τις αρχικές λέξεις, ταιριάζοντας σχεδόν την ακρίβειά του 94% με ακριβείς φράσεις εκπαίδευσης.
- Πτώση ακρίβειας μεταξύ τομέων: Όταν εφαρμόστηκε το ίδιο γραμματικό πρότυπο σε διαφορετική θεματική περιοχή, η ακρίβεια μειώθηκε κατά 37 έως 54 ποσοστιαίες μονάδες στα μεγέθη μοντέλων.
- Διαφορετικές προτροπές: Τα μοντέλα είχαν σταθερά κακή απόδοση σε διαφοροποιημένες προτροπές, οι οποίες περιείχαν συντακτικά ορθές ανοησίες, ανεξάρτητα από τον τομέα.
Οι ερευνητές εφάρμοσαν επίσης μια μέθοδο συγκριτικής αξιολόγησης για να επαληθεύσουν αυτά τα μοτίβα σε μοντέλα παραγωγής, εξάγοντας γραμματικά πρότυπα από το σύνολο δεδομένων συντονισμού εντολών FlanV2 και δοκιμάζοντας την απόδοση του μοντέλου όταν αυτά τα πρότυπα εφαρμόζονταν σε διαφορετικές θεματικές περιοχές.
Οι δοκιμές σε OLMo-2-7B, GPT-4o και GPT-4o-mini αποκάλυψαν παρόμοιες μειώσεις απόδοσης σε σενάρια μεταξύ τομέων:
- Εργασία ταξινόμησης Sentiment140: Η ακρίβεια του GPT-4o-mini μειώθηκε από 100% σε 44% όταν εφαρμόστηκαν πρότυπα γεωγραφίας σε ερωτήσεις ανάλυσης συναισθήματος.
- GPT-4o: Η ακρίβειά του έπεσε από 69% σε 36% υπό παρόμοιες συνθήκες.
Τα ευρήματα περιέχουν αρκετές επιφυλάξεις. Οι ερευνητές δεν μπόρεσαν να επιβεβαιώσουν εάν μοντέλα κλειστού κώδικα όπως το GPT-4o είχαν εκπαιδευτεί στο σύνολο δεδομένων FlanV2. Χωρίς πρόσβαση σε δεδομένα εκπαίδευσης, άλλες εξηγήσεις για τις πτώσεις απόδοσης μεταξύ τομέων σε αυτά τα μοντέλα παραμένουν δυνατές. Η μέθοδος συγκριτικής αξιολόγησης αντιμετωπίζει επίσης ένα πιθανό ζήτημα κυκλικότητας. Οι ερευνητές όρισαν τα πρότυπα «εντός τομέα» ως εκείνα στα οποία τα μοντέλα απάντησαν σωστά και στη συνέχεια κατέληξαν στο συμπέρασμα ότι η δυσκολία προήλθε από συσχετίσεις σύνταξης-τομέα.
Η μελέτη επικεντρώθηκε ειδικά σε μοντέλα OLMo που κυμαίνονταν από 1 δισεκατομμύριο έως 13 δισεκατομμύρια παραμέτρους και δεν εξέτασε μεγαλύτερα μοντέλα ή εκείνα που εκπαιδεύτηκαν με αλυσιδωτή αποτελέσματα. Επιπλέον, τα συνθετικά πειράματα δημιούργησαν σκόπιμα ισχυρούς συσχετισμούς προτύπων-τομέων, ενώ τα δεδομένα εκπαίδευσης στον πραγματικό κόσμο πιθανότατα περιλαμβάνουν πιο πολύπλοκα μοτίβα όπου πολλαπλές θεματικές περιοχές μοιράζονται γραμματικές δομές.
VIA: DataConomy.com










