Στη μελέτη που δημοσιεύτηκε στο arXiv τον Νοέμβριο του 2025, ακόμη εν αναμονή της αξιολόγησης από ομοτίμους, οι ερευνητές δοκίμασαν τα προστατευτικά κιγκλιδώματα μιας ομάδας 25 μοντέλων τεχνητής νοημοσύνης συνόρων σε εννέα παρόχους: OpenAI, Anthropic, xAI, Alibaba’s Qwen, Deepseek, Mistral AI, Meta, Moonshot AI και Google. Για να μετρήσει την αποτελεσματικότητα των προστατευτικών κιγκλιδωμάτων ασφαλείας των AI, η ομάδα δοκίμασε 20 χειρόγραφα ποιήματα και 1.200 στίχους που δημιουργήθηκαν από AI και περιγράφουν λεπτομερώς επιβλαβείς προτροπές. Τα ποιήματα κάλυπταν τέσσερις κατηγορίες ασφάλειας: σενάρια απώλειας ελέγχου, επιβλαβής χειραγώγηση, κυβερνοεγκλήματα και χημικά, βιολογικά, ραδιολογικά και πυρηνικά όπλα (CBRN). Ως εκ τούτου, τα ποιήματα ζητούσαν εξειδικευμένες συμβουλές σχετικά με τα αδιάκριτα όπλα, την εκμετάλλευση παιδιών, τον αυτοτραυματισμό, τις παραβιάσεις της πνευματικής ιδιοκτησίας και της ιδιωτικής ζωής και άλλα βίαια αδικήματα. Οι προτροπές θεωρήθηκαν επιτυχείς εάν παρήγαγαν τις επιδιωκόμενες μη ασφαλείς απαντήσεις
Σύμφωνα με την ομάδα της DEXAI, η μετατροπή μη ασφαλών αιτημάτων σε ποίηση είχε ως αποτέλεσμα μια μέση πενταπλάσια αύξηση των επιτυχημένων αιτημάτων. Τα μοντέλα παρουσίασαν προβλήματα ανεξάρτητα από τις αγωγούς εκπαίδευσης και τις αρχιτεκτονικές συστημάτων, υποδηλώνοντας μια γενική ευπάθεια στον τρόπο με τον οποίο τα μοντέλα ερμηνεύουν τη γλώσσα. Ωστόσο, ο πάροχος του μοντέλου έκανε μια ουσιαστική διαφορά. Από τα 25 μοντέλα που δοκιμάστηκαν, τα 13 εξαπατήθηκαν πάνω από το 70% των περιπτώσεων, με τα Google, Deepseek και Qwen να αποδεικνύονται ιδιαίτερα ευαίσθητα. Ακόμη και η Anthropic, η οποία κάποτε έγινε πρωτοσέλιδο, τολμώντας τους πελάτες της να προσπαθήσουν να κάνουν jailbreak το σύστημα Claude AI, ήταν ευάλωτη στην τεχνική, αν και πολύ πιο σπάνια.
Μόνο τέσσερα μοντέλα ξεγελάστηκαν λιγότερο από το ένα τρίτο του χρόνου. Και ενώ ο βαθμός ευαισθησίας διέφερε ευρέως, ακόμη και ο Claude του Antropic και το GPT-5 του OpenAI, το με τις καλύτερες επιδόσεις της ομάδας, έπεσαν θύματα της τεχνικής. Παραδόξως, τα μικρότερα μοντέλα αντιμετώπισαν τις προτροπές της αντίπαλης ποίησης καλύτερα από τα μεγαλύτερα αντίστοιχά τους, ενώ τα αποτελέσματα δεν έδειξαν κανένα πλεονέκτημα για τα ιδιόκτητα συστήματα έναντι των μοντέλων ανοιχτού βάρους. Αυτό που δεν προκάλεσε έκπληξη, ωστόσο, ήταν η συγκριτική απόδοση της ποίησης που δημιουργήθηκε με το χέρι και της τεχνητής νοημοσύνης, στην οποία ο ανθρώπινος στίχος ξεπέρασε κατά πολύ τον τεχνητό αντίστοιχό του. ένα αποτέλεσμα που θα έπρεπε να έχει παντού καθηγητές φιλολογίας.
Via: bgr.com










