Παρόλο που το OpenAI εργάζεται για να σκληρύνει το πρόγραμμα περιήγησής του Atlas AI έναντι κυβερνοεπιθέσεων, η εταιρεία παραδέχεται ότι οι έγκαιρες ενέσεις, ένας τύπος επίθεσης που χειραγωγεί τους πράκτορες τεχνητής νοημοσύνης να ακολουθούν κακόβουλες οδηγίες που συχνά κρύβονται σε ιστοσελίδες ή email, είναι ένας κίνδυνος που δεν θα εξαφανιστεί σύντομα – εγείροντας ερωτήματα σχετικά με το πόσο ασφαλείς μπορούν να λειτουργήσουν οι πράκτορες τεχνητής νοημοσύνης στον ανοιχτό ιστό.
«Η άμεση έγχυση, όπως οι απάτες και η κοινωνική μηχανική στον Ιστό, είναι απίθανο να «λυθεί» πλήρως», έγραψε το OpenAI τη Δευτέρα. ανάρτηση ιστολογίου περιγράφοντας λεπτομερώς πώς η εταιρεία ενισχύει την πανοπλία του Atlas για να καταπολεμήσει τις αδιάκοπες επιθέσεις. Η εταιρεία παραδέχτηκε ότι η “λειτουργία πράκτορα” στο ChatGPT Atlas “επεκτείνει την επιφάνεια απειλής ασφαλείας”.
Το OpenAI κυκλοφόρησε το πρόγραμμα περιήγησής του ChatGPT Atlas τον Οκτώβριο και οι ερευνητές ασφαλείας έσπευσαν να δημοσιεύσουν τις επιδείξεις τους, δείχνοντας ότι ήταν δυνατό να γραφτούν μερικές λέξεις στα Έγγραφα Google που θα μπορούσαν να αλλάξουν τη συμπεριφορά του υποκείμενου προγράμματος περιήγησης. Την ίδια μέρα, Brave δημοσίευσε μια ανάρτηση στο blog εξηγώντας ότι η έμμεση άμεση έγχυση είναι μια συστηματική πρόκληση για προγράμματα περιήγησης που υποστηρίζονται από AI, συμπεριλαμβανομένου του Comet του Perplexity.
Το OpenAI δεν είναι το μόνο που αναγνωρίζει ότι οι έγκαιρες ενέσεις δεν εξαφανίζονται. Ο Το Εθνικό Κέντρο Κυβερνοασφάλειας του Ηνωμένου Βασιλείου προειδοποίησε νωρίτερα αυτόν τον μήνα ότι οι άμεσες επιθέσεις με έγχυση κατά γενετικών εφαρμογών τεχνητής νοημοσύνης «δεν μπορεί ποτέ να μετριαστούν πλήρως», θέτοντας τους ιστότοπους σε κίνδυνο να πέσουν θύματα παραβιάσεων δεδομένων. Η κυβερνητική υπηρεσία του Ηνωμένου Βασιλείου συμβούλεψε τους επαγγελματίες του κυβερνοχώρου να μειώσουν τον κίνδυνο και τον αντίκτυπο των έγκαιρων ενέσεων, αντί να πιστεύουν ότι οι επιθέσεις μπορούν να «σταματηθούν».
Από την πλευρά του OpenAI, η εταιρεία δήλωσε: «Βλέπουμε την άμεση έγχυση ως μια μακροπρόθεσμη πρόκληση ασφάλειας της τεχνητής νοημοσύνης και θα πρέπει να ενισχύουμε συνεχώς την άμυνά μας εναντίον της».
Η απάντηση της εταιρείας σε αυτό το Σισύφειο έργο; Ένας προληπτικός κύκλος ταχείας απόκρισης που η εταιρεία λέει ότι δείχνει έγκαιρα υπόσχεση για να βοηθήσει στην ανακάλυψη καινοτόμων στρατηγικών επίθεσης εσωτερικά πριν από την εκμετάλλευση τους «στη φύση».
Αυτό δεν είναι εντελώς διαφορετικό από αυτό που έχουν πει ανταγωνιστές όπως η Anthropic και η Google: ότι για να καταπολεμηθεί ο επίμονος κίνδυνος επιθέσεων που βασίζονται σε έγκαιρα, οι άμυνες πρέπει να είναι πολυεπίπεδες και να δοκιμάζονται συνεχώς με άγχος. Πρόσφατη δουλειά της Googleγια παράδειγμα, εστιάζει σε αρχιτεκτονικούς ελέγχους και ελέγχους σε επίπεδο πολιτικής για συστήματα πράκτορα.
Αλλά εκεί που το OpenAI υιοθετεί μια διαφορετική τακτική είναι με τον “αυτοματοποιημένο εισβολέα που βασίζεται σε LLM”. Αυτός ο εισβολέας είναι βασικά ένα bot που εκπαίδευσε το OpenAI, χρησιμοποιώντας ενισχυτική μάθηση, για να παίξει το ρόλο ενός χάκερ που αναζητά τρόπους να κρυφά τις κακόβουλες οδηγίες σε έναν πράκτορα AI.
Το bot μπορεί να δοκιμάσει την επίθεση σε προσομοίωση πριν τη χρησιμοποιήσει πραγματικά και ο προσομοιωτής δείχνει πώς θα σκεφτόταν ο στόχος AI και ποιες ενέργειες θα έκανε αν έβλεπε την επίθεση. Το bot μπορεί στη συνέχεια να μελετήσει αυτή την απόκριση, να τροποποιήσει την επίθεση και να προσπαθήσει ξανά και ξανά. Αυτή η εικόνα του εσωτερικού συλλογισμού της τεχνητής νοημοσύνης στόχου είναι κάτι στο οποίο οι ξένοι δεν έχουν πρόσβαση, επομένως, θεωρητικά, το bot του OpenAI θα πρέπει να είναι σε θέση να βρίσκει ελαττώματα γρηγορότερα από έναν εισβολέα του πραγματικού κόσμου.
Είναι μια κοινή τακτική στις δοκιμές ασφάλειας τεχνητής νοημοσύνης: δημιουργήστε έναν πράκτορα για να βρείτε τα edge case και να τα δοκιμάσετε γρήγορα σε προσομοίωση.
“Μας [reinforcement learning]-Ο εκπαιδευμένος εισβολέας μπορεί να κατευθύνει έναν πράκτορα στην εκτέλεση εξελιγμένων, επιβλαβών ροών εργασίας μεγάλου ορίζοντα που εκτυλίσσονται σε δεκάδες (ή ακόμα και εκατοντάδες) βήματα», έγραψε το OpenAI. «Παρατηρήσαμε επίσης νέες στρατηγικές επίθεσης που δεν εμφανίζονταν στην καμπάνια ομαδοποίησης ανθρώπου ή σε εξωτερικές αναφορές».
Σε μια επίδειξη (που απεικονίζεται εν μέρει παραπάνω), το OpenAI έδειξε πώς ο αυτοματοποιημένος εισβολέας του διέλυσε ένα κακόβουλο email στα εισερχόμενα ενός χρήστη. Όταν αργότερα ο πράκτορας της τεχνητής νοημοσύνης σάρωνε τα εισερχόμενα, ακολούθησε τις κρυφές οδηγίες στο email και έστειλε ένα μήνυμα παραίτησης αντί να συντάξει μια απάντηση εκτός γραφείου. Ωστόσο, μετά την ενημέρωση ασφαλείας, το “agent mode” μπόρεσε να εντοπίσει με επιτυχία την άμεση προσπάθεια έγχυσης και να την επισημάνει στον χρήστη, σύμφωνα με την εταιρεία.
Η εταιρεία λέει ότι ενώ η έγκαιρη έγχυση είναι δύσκολο να ασφαλιστεί με αλάνθαστο τρόπο, βασίζεται σε δοκιμές μεγάλης κλίμακας και ταχύτερους κύκλους ενημέρωσης κώδικα για να σκληρύνει τα συστήματά της προτού εμφανιστούν σε επιθέσεις πραγματικού κόσμου.
Ένας εκπρόσωπος του OpenAI αρνήθηκε να μοιραστεί εάν η ενημέρωση για την ασφάλεια του Atlas είχε ως αποτέλεσμα μια μετρήσιμη μείωση των επιτυχημένων εγχύσεων, αλλά λέει ότι η εταιρεία συνεργάζεται με τρίτους για να σκληρύνει την Atlas έναντι της άμεσης έγχυσης από πριν από την κυκλοφορία.
Ο Rami McCarthy, κύριος ερευνητής ασφάλειας στην εταιρεία κυβερνοασφάλειας Wiz, λέει ότι η ενισχυτική μάθηση είναι ένας τρόπος για να προσαρμόζεσαι συνεχώς στη συμπεριφορά του επιτιθέμενου, αλλά είναι μόνο ένα μέρος της εικόνας.
«Ένας χρήσιμος τρόπος για να συλλογιστούμε τον κίνδυνο στα συστήματα τεχνητής νοημοσύνης είναι η αυτονομία πολλαπλασιαζόμενη με την πρόσβαση», είπε ο McCarthy στο TechCrunch.
«Τα πράκτορα προγράμματα περιήγησης τείνουν να κάθονται σε ένα δύσκολο μέρος αυτού του χώρου: μέτρια αυτονομία σε συνδυασμό με πολύ υψηλή πρόσβαση», δήλωσε ο McCarthy. “Πολλές τρέχουσες συστάσεις αντικατοπτρίζουν αυτόν τον συμβιβασμό. Ο περιορισμός της συνδεδεμένης πρόσβασης μειώνει κυρίως την έκθεση, ενώ η απαίτηση ελέγχου των αιτημάτων επιβεβαίωσης περιορίζει την αυτονομία.”
Αυτές είναι δύο από τις συστάσεις του OpenAI προς τους χρήστες να μειώσουν τον δικό τους κίνδυνο και ένας εκπρόσωπος είπε ότι η Atlas είναι επίσης εκπαιδευμένη για να λαμβάνει επιβεβαίωση χρήστη πριν στείλει μηνύματα ή πραγματοποιήσει πληρωμές. Το OpenAI προτείνει επίσης στους χρήστες να δίνουν στους πράκτορες συγκεκριμένες οδηγίες, αντί να τους παρέχουν πρόσβαση στα εισερχόμενά σας και να τους λένε «να κάνουν ό,τι χρειάζεται».
«Το μεγάλο γεωγραφικό πλάτος διευκολύνει το κρυφό ή κακόβουλο περιεχόμενο να επηρεάσει τον πράκτορα, ακόμη και όταν υπάρχουν διασφαλίσεις», σύμφωνα με το OpenAI.
Ενώ το OpenAI λέει ότι η προστασία των χρηστών του Atlas από έγκαιρες ενέσεις είναι κορυφαία προτεραιότητα, ο McCarthy προκαλεί κάποιο σκεπτικισμό ως προς την απόδοση της επένδυσης για προγράμματα περιήγησης που είναι επιρρεπή σε κίνδυνο.
«Για τις περισσότερες περιπτώσεις καθημερινής χρήσης, τα agent browsers δεν προσφέρουν ακόμη αρκετή αξία για να δικαιολογήσουν το τρέχον προφίλ κινδύνου τους», είπε ο McCarthy στο TechCrunch. “Ο κίνδυνος είναι υψηλός δεδομένης της πρόσβασής τους σε ευαίσθητα δεδομένα όπως το ηλεκτρονικό ταχυδρομείο και οι πληροφορίες πληρωμών, παρόλο που αυτή η πρόσβαση είναι επίσης αυτό που τους κάνει ισχυρούς. Αυτό το ισοζύγιο θα εξελιχθεί, αλλά σήμερα οι αντισταθμίσεις εξακολουθούν να είναι πολύ πραγματικές.”
Via: techcrunch.com








