Κυριακή, 18 Ιανουαρίου, 2026
ΑρχικήTechnology«Ποιητική Αταξία: Πώς η Ποίηση Παρακάμπτει τα Ασφαλή Συστήματα της Τεχνητής Νοημοσύνης!»

«Ποιητική Αταξία: Πώς η Ποίηση Παρακάμπτει τα Ασφαλή Συστήματα της Τεχνητής Νοημοσύνης!»


Ερευνητές από την Ιταλία αποκαλύπτουν ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να παρακαμφθούν μέσω της ποιητικής τέχνης, αποδεικνύοντας μια σοβαρή αδυναμία στην ασφάλεια της τεχνολογίας.

Σύμφωνα με την μελέτη του Icaro Lab, που προέρχεται από την εταιρεία δεοντολογικής τεχνητής νοημοσύνης DexAI, η αδυναμία των μοντέλων να ανταποκριθούν σωστά σε ποίηση μπορεί να τα οδηγήσει στην παραγωγή επιβλαβούς περιεχομένου. Στο πλαίσιο αυτού του πειράματος, οι ερευνητές δημιούργησαν 20 ποιήματα σε ιταλικά και αγγλικά, όλα με ρητό αίτημα για παραγωγή επιβλαβούς περιεχομένου, όπως ρατσιστική ρητορική ή αυτοτραυματισμό. Αυτά τα ποιήματα δοκιμάστηκαν σε 25 μοντέλα τεχνητής νοημοσύνης από εννέα μεγάλες εταιρείες, όπως οι Google, OpenAI, Anthropic και Meta.

Τα αποτελέσματα του πειράματος έδειξαν μια ανησυχητική τάση: το 62% των μοντέλων απάντησε σε ποιητικές προτροπές με επιβλαβές περιεχόμενο, παρακάμπτοντας τις ρυθμίσεις ασφαλείας τους. Αυτή η διαδικασία, γνωστή ως “jailbreaking”, αποκαλύπτει σοβαρά κενά στην ασφάλεια των τεχνητών νοημόνων.

Ενδιαφέρον παρουσιάζει το γεγονός ότι ορισμένα μοντέλα επιδόθηκαν καλύτερα από άλλα: το GPT-5 nano της OpenAI δεν παρήγαγε καθόλου επιβλαβές περιεχόμενο, ενώ το Gemini 2.5 pro της Google απάντησε θετικά σε όλες τις προτροπές με ρητό περιεχόμενο. Η ανακοίνωση της Helen King, αντιπροέδρου ευθύνης στην Google DeepMind, επεσήμανε την προσέγγιση της εταιρείας για την ασφάλεια της τεχνητής νοημοσύνης, διαβεβαιώνοντας ότι συνεχίζουν να επενδύουν σε αξιολογήσεις που μπορούν να βελτιώσουν τα μοντέλα τους.

Το επιβλαβές περιεχόμενο που επιχειρούσαν οι ερευνητές να δημιουργήσουν περιλάμβανε οδηγίες κατασκευής όπλων και εκρηκτικών, καθώς και μισαλλόδοξα και σεξουαλικά θέματα. Ο Piercosma Bisconti, ερευνητής και ιδρυτής της DexAI, ανέφερε ότι αποφάσισαν να μην δημοσιεύσουν τα ποιήματα που χρησιμοποιήθηκαν για τη δοκιμή, καθώς είναι ευκολοαναπαραγόμενα και πολλές από τις απαντήσεις έχουν παραβάσεις της Σύμβασης της Γενεύης.

Ο Bisconti εξήγησε ότι ο λόγος που μια επιβλαβής προτροπή στο ποιητικό στυλ λειτουργεί ενώ μια άμεση επιβλαβής προτροπή όχι, οφείλεται στην πρόβλεψη των επόμενων λέξεων από τα μεγάλα γλωσσικά μοντέλα. Η επίδραση της ποιητικής δομής καθιστά δυσκολότερη την αναγνώριση και ανίχνευση των επιβλαβών αιτημάτων.

Προβλέπεται επιπλέον ότι η ερευνά για την «εχθρική ποίηση» προβληματίζει, καθώς οι μέθοδοι jailbreaking απαιτούν συχνά περίπλοκες διαδικασίες, ενώ αυτή η μέθοδος μπορεί να εφαρμοστεί εύκολα από οποιονδήποτε. Οι ερευνητές επικοινώνησαν με τις εταιρείες που εξετάστηκαν για να τις ενημερώσουν σχετικά με την ευπάθεια, με μόνη θετική ανταπόκριση μέχρι στιγμής από την Anthropic.

Σημαντική είναι η παρατήρηση ότι δύο μοντέλα της Meta απάντησαν θετικά στο 70% των ποιητικών προτροπών με επιβλαβές περιεχόμενο. Οι προσπάθειες για σχολιασμό των ευρημάτων δεν απέδωσαν, ενώ η Meta επέλεξε να μην τοποθετηθεί.

Το Icaro Lab σχεδιάζει να ανοίξει μια ποιητική πρόκληση για την περαιτέρω αξιολόγηση της ασφάλειας των μοντέλων. “Εγώ και πέντε συνάδελφοί μου δουλέψαμε για να δημιουργήσουμε αυτά τα ποιήματα”, δήλωσε ο Bisconti, σημειώνοντας ωστόσο ότι δεν είναι επαγγελματίες ποιητές, πιθανώς υποτιμώντας έτσι τα αποτελέσματα της έρευνας.

Το εργαστήριο, που έχει ως στόχο τη μελέτη της ασφάλειας των μεγάλων γλωσσικών μοντέλων, στελεχώνεται από ειδικούς στις ανθρωπιστικές επιστήμες, συμπεριλαμβανομένων φιλοσόφων της επιστήμης υπολογιστών, κάτι που ενισχύει την εγκυρότητα της έρευνας. Συνολικά, τα αποτελέσματα της μελέτης απαιτούν άμεσες διορθωτικές προτάσεις και αναβάθμιση της ακεραιότητας των υποκείμενων συστημάτων τεχνητής νοημοσύνης.

Marizas Dimitris
Marizas Dimitrishttps://techreport.gr
Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες. Λατρεύει να εξερευνά νέες ιδέες, να επιλύει σύνθετα προβλήματα και να βρίσκει τρόπους ώστε η τεχνολογία να γίνεται πιο ανθρώπινη, απολαυστική και προσιτή για όλους. Στον ελεύθερο χρόνο του ασχολείται με το σκάκι και το poker, απολαμβάνοντας την στρατηγική και τη δημιουργική σκέψη που απαιτούν.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -