«Ποιητική Αταξία: Πώς η Ποίηση Παρακάμπτει τα Ασφαλή Συστήματα της Τεχνητής Νοημοσύνης!»

1 Δεκεμβρίου 2025

4

«Ποιητική Αταξία: Πώς η Ποίηση Παρακάμπτει τα Ασφαλή Συστήματα της Τεχνητής Νοημοσύνης!»

Ερευνητές από την Ιταλία αποκαλύπτουν ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να παρακαμφθούν μέσω της ποιητικής τέχνης, αποδεικνύοντας μια σοβαρή αδυναμία στην ασφάλεια της τεχνολογίας.

Σύμφωνα με την μελέτη του Icaro Lab, που προέρχεται από την εταιρεία δεοντολογικής τεχνητής νοημοσύνης DexAI, η αδυναμία των μοντέλων να ανταποκριθούν σωστά σε ποίηση μπορεί να τα οδηγήσει στην παραγωγή επιβλαβούς περιεχομένου. Στο πλαίσιο αυτού του πειράματος, οι ερευνητές δημιούργησαν 20 ποιήματα σε ιταλικά και αγγλικά, όλα με ρητό αίτημα για παραγωγή επιβλαβούς περιεχομένου, όπως ρατσιστική ρητορική ή αυτοτραυματισμό. Αυτά τα ποιήματα δοκιμάστηκαν σε 25 μοντέλα τεχνητής νοημοσύνης από εννέα μεγάλες εταιρείες, όπως οι Google, OpenAI, Anthropic και Meta.

Τα αποτελέσματα του πειράματος έδειξαν μια ανησυχητική τάση: το 62% των μοντέλων απάντησε σε ποιητικές προτροπές με επιβλαβές περιεχόμενο, παρακάμπτοντας τις ρυθμίσεις ασφαλείας τους. Αυτή η διαδικασία, γνωστή ως “jailbreaking”, αποκαλύπτει σοβαρά κενά στην ασφάλεια των τεχνητών νοημόνων.

Ενδιαφέρον παρουσιάζει το γεγονός ότι ορισμένα μοντέλα επιδόθηκαν καλύτερα από άλλα: το GPT-5 nano της OpenAI δεν παρήγαγε καθόλου επιβλαβές περιεχόμενο, ενώ το Gemini 2.5 pro της Google απάντησε θετικά σε όλες τις προτροπές με ρητό περιεχόμενο. Η ανακοίνωση της Helen King, αντιπροέδρου ευθύνης στην Google DeepMind, επεσήμανε την προσέγγιση της εταιρείας για την ασφάλεια της τεχνητής νοημοσύνης, διαβεβαιώνοντας ότι συνεχίζουν να επενδύουν σε αξιολογήσεις που μπορούν να βελτιώσουν τα μοντέλα τους.

Το επιβλαβές περιεχόμενο που επιχειρούσαν οι ερευνητές να δημιουργήσουν περιλάμβανε οδηγίες κατασκευής όπλων και εκρηκτικών, καθώς και μισαλλόδοξα και σεξουαλικά θέματα. Ο Piercosma Bisconti, ερευνητής και ιδρυτής της DexAI, ανέφερε ότι αποφάσισαν να μην δημοσιεύσουν τα ποιήματα που χρησιμοποιήθηκαν για τη δοκιμή, καθώς είναι ευκολοαναπαραγόμενα και πολλές από τις απαντήσεις έχουν παραβάσεις της Σύμβασης της Γενεύης.

Ο Bisconti εξήγησε ότι ο λόγος που μια επιβλαβής προτροπή στο ποιητικό στυλ λειτουργεί ενώ μια άμεση επιβλαβής προτροπή όχι, οφείλεται στην πρόβλεψη των επόμενων λέξεων από τα μεγάλα γλωσσικά μοντέλα. Η επίδραση της ποιητικής δομής καθιστά δυσκολότερη την αναγνώριση και ανίχνευση των επιβλαβών αιτημάτων.

Προβλέπεται επιπλέον ότι η ερευνά για την «εχθρική ποίηση» προβληματίζει, καθώς οι μέθοδοι jailbreaking απαιτούν συχνά περίπλοκες διαδικασίες, ενώ αυτή η μέθοδος μπορεί να εφαρμοστεί εύκολα από οποιονδήποτε. Οι ερευνητές επικοινώνησαν με τις εταιρείες που εξετάστηκαν για να τις ενημερώσουν σχετικά με την ευπάθεια, με μόνη θετική ανταπόκριση μέχρι στιγμής από την Anthropic.

Σημαντική είναι η παρατήρηση ότι δύο μοντέλα της Meta απάντησαν θετικά στο 70% των ποιητικών προτροπών με επιβλαβές περιεχόμενο. Οι προσπάθειες για σχολιασμό των ευρημάτων δεν απέδωσαν, ενώ η Meta επέλεξε να μην τοποθετηθεί.

Το Icaro Lab σχεδιάζει να ανοίξει μια ποιητική πρόκληση για την περαιτέρω αξιολόγηση της ασφάλειας των μοντέλων. “Εγώ και πέντε συνάδελφοί μου δουλέψαμε για να δημιουργήσουμε αυτά τα ποιήματα”, δήλωσε ο Bisconti, σημειώνοντας ωστόσο ότι δεν είναι επαγγελματίες ποιητές, πιθανώς υποτιμώντας έτσι τα αποτελέσματα της έρευνας.

Το εργαστήριο, που έχει ως στόχο τη μελέτη της ασφάλειας των μεγάλων γλωσσικών μοντέλων, στελεχώνεται από ειδικούς στις ανθρωπιστικές επιστήμες, συμπεριλαμβανομένων φιλοσόφων της επιστήμης υπολογιστών, κάτι που ενισχύει την εγκυρότητα της έρευνας. Συνολικά, τα αποτελέσματα της μελέτης απαιτούν άμεσες διορθωτικές προτάσεις και αναβάθμιση της ακεραιότητας των υποκείμενων συστημάτων τεχνητής νοημοσύνης.

Προηγούμενο άρθρο

Η Google διαγράφει X ανάρτηση αφού πιάστηκε χρησιμοποιώντας ένα «κλεμμένο» infographic συνταγής AI

Επόμενο άρθρο

«Σοκ! Το επεισόδιο 4 της 5ης σεζόν του Stranger Things σπάει τα ρεκόρ με την υψηλότερη βαθμολογία στο IMDb!»

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

«Ποιητική Αταξία: Πώς η Ποίηση Παρακάμπτει τα Ασφαλή Συστήματα της Τεχνητής Νοημοσύνης!»

Ο πιο ενδιαφέρον e-reader της CES χρειάζεται ακόμα λίγη δουλειά πριν φτάσει στην πρώτη ώρα

4 όμορφα ρομπότ που μπορεί να χάσατε από την CES 2026

Το Raspberry Pi μπορεί να τρέξει παιχνίδια Steam

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Το Google Chrome δοκιμάζει τις “δεξιότητες” AI που υποστηρίζεται από Gemini

Οι συμβουλές για την ουρική αρθρίτιδα που γίνονται ιογενείς στο TikTok δεν είναι αυτό που λειτουργεί

Ο πιο ενδιαφέρον e-reader της CES χρειάζεται ακόμα λίγη δουλειά πριν φτάσει στην πρώτη ώρα

4 όμορφα ρομπότ που μπορεί να χάσατε από την CES 2026

Random Today Posts

4 μεγάλα τηλέφωνα Android πιο ισχυρά από το Google Pixel 10 Pro

Το Apple Intelligence Siri έχει καθυστερήσει πάνω από ένα χρόνο, αλλά αυτό μπορεί να είναι καλό

Αποκλειστικό: Εντοπίστηκαν REDMI K100 ‘Athens’ και Max ‘Songyuan’

POPULAR POSTS

[#Ιστορικό_Χαμηλό] ABBREE KF‑106 : Βρες τα κλειδιά, το πορτοφόλι ή… τη γάτα σου με ένα κουμπί

Αποκλειστικό: Το πρώτο κλιπ του Stranger Things Season 5 Volume 2 αποκαλύπτει το σοκαριστικό σχέδιο για να καταστρέψουν τον Vecna! 🔥

Ανακάλυψε την επαναστατική TRIMUI Smart Pro S: Ρετρό Μαγεία με WiFi 6 και Hall Joysticks σε Απίστευτη Τιμή! 🚀

POPULAR CATEGORY

ABOUT US

FOLLOW US