Ερευνητές από την Κινεζική Ακαδημία Επιστημών και το Τεχνολογικό Πανεπιστήμιο Nanyang παρουσίασαν το AURA, ένα νέο πλαίσιο για την προστασία των ιδιόκτητων γραφημάτων γνώσης στα συστήματα GraphRAG από κλοπή και ιδιωτική εκμετάλλευση.
Δημοσιεύτηκε στο arXiv μόλις πριν από μια εβδομάδα, η εφημερίδα ανταύγειες πώς η νοθεία KG με πλαστά αλλά εύλογα δεδομένα καθιστά τα κλεμμένα αντίγραφα άχρηστα για τους εισβολείς, διατηρώντας παράλληλα την πλήρη χρησιμότητα για τους εξουσιοδοτημένους χρήστες.
Τα γραφήματα γνώσης τροφοδοτούν τις προηγμένες εφαρμογές GraphRAG, από την ανακάλυψη φαρμάκων της Pfizer μέχρι την κατασκευή της Siemens, αποθηκεύοντας τεράστια πνευματική ιδιοκτησία αξίας εκατομμυρίων.
Οι παραβιάσεις του πραγματικού κόσμου υπογραμμίζουν τον κίνδυνο: ένας μηχανικός της Waymo έκλεψε 14.000 αρχεία LiDAR το 2018 και οι χάκερ στόχευσαν δεδομένα εμβολίων Pfizer-BioNTech μέσω του Ευρωπαϊκού Οργανισμού Φαρμάκων το 2020.
Οι εισβολείς κλέβουν KG για να αναπαράγουν τις δυνατότητες του GraphRAG ιδιωτικά, αποφεύγοντας την υδατοσήμανση, η οποία απαιτεί πρόσβαση στην έξοδο και κρυπτογράφηση, η οποία επιβραδύνει τα ερωτήματα χαμηλής καθυστέρησης.
Οι παραδοσιακές άμυνες αποτυγχάνουν σε σενάρια «ιδιωτικής χρήσης» όπου οι κλέφτες λειτουργούν εκτός σύνδεσης. Τα πλαίσια του EU AI Act και του NIST τονίζουν την ανθεκτικότητα των δεδομένων, ωστόσο δεν υπάρχουν λύσεις για αυτό το κενό.
Στρατηγική της AURA για τη νοθεία
Το AURA μετατοπίζεται από την πρόληψη στην υποτίμηση: εγχέει «μοιχούς», ψευδείς τριάδες που μιμούνται πραγματικά δεδομένα σε κρίσιμους κόμβους KG.

Οι βασικοί κόμβοι επιλέγονται μέσω του Minimum Vertex Cover (MVC), που επιλύεται προσαρμοστικά με ILP για μικρά γραφήματα ή Malatya heuristic για μεγάλα, διασφαλίζοντας ότι οι ελάχιστες αλλαγές καλύπτουν όλες τις άκρες.
Οι μοιχαλοί συνδυάζουν μοντέλα πρόβλεψης συνδέσμων (TransE, RotatE) για δομική αληθοφάνεια και LLM για σημασιολογική συνοχή. Η επιλογή με βάση τον αντίκτυπο χρησιμοποιεί τη Βαθμολογία Σημασιολογικής Απόκλισης (SDS), Ευκλείδεια απόσταση σε ενσωματώσεις προτάσεων, για να επιλέξει τις πιο ενοχλητικές ανά κόμβο.
Οι κρυπτογραφημένες σημαίες μεταδεδομένων AES (ως ιδιότητες «παρατήρησης») επιτρέπουν στα εξουσιοδοτημένα συστήματα να τα φιλτράρουν μετά την ανάκτηση με ένα μυστικό κλειδί, επιτυγχάνοντας αποδεδειγμένη ασφάλεια IND-CPA.
Οι δοκιμές σε MetaQA, WebQSP, FB15k-237 και HotpotQA με GPT-4o, Gemini-2.5-flash, Qwen-2.5-7B και Llama2-7B έδειξαν 94-96% Βαθμολογία Βλαβερότητας (HS) σωστές απαντήσεις λανθασμένες και 100% Retrivalteult Adult.
| Σύνολο δεδομένων | GPT-4o HS | Πιστότητα (CDPA) | Αύξηση καθυστέρησης |
|---|---|---|---|
| MetaQA | 94,7 | 100% | 1,20% |
| WebQSP | 95,0 | 100% | 14,05% |
| FB15k-237 | 94.3 | 100% | 1,50% |
| HotpotQA | 95,6 | 100% | 2,98% |
Οι μοιχοί απέφευγαν τους ανιχνευτές (ODDBALL: 4,1%, Node2Vec: 3,3%) και την απολύμανση (SEKA: 94,5% διατηρήθηκε, KGE: 80,2%). Η συλλογιστική πολλαπλών βημάτων σημείωσε άνοδο του HS (95,8% στα 3 άλματα), ισχυρή σε retriever και προηγμένα πλαίσια όπως το GraphRAG της Microsoft.
Οι μελέτες κατάλυσης επιβεβαίωσαν τα πλεονεκτήματα της υβριδικής παραγωγής: οι μέθοδοι μόνο LLM είναι επιρρεπείς σε δομικούς ελέγχους, ενώ οι μέθοδοι μόνο με πρόβλεψη σύνδεσης είναι ευάλωτες σε σημασιολογικά ζητήματα.
Ακόμη και ένας μόνος νοθευτής ανά κόμβο ήταν αρκετός για πάνω από 94% υψηλές βαθμολογίες. Οι πρόσθετοι μοιχοί παρείχαν μόνο οριακά κέρδη.
Οι περιορισμοί περιλαμβάνουν περιγραφές κειμένου χωρίς διεύθυνση σε κόμβους και εμπιστευτικούς κινδύνους απόσταξης, μετριασμένους από ελέγχους API. Η AURA πρωτοπορεί στην «ενεργή υποβάθμιση» για το KG IP, την αντίθεση επιθετικής δηλητηρίασης (PoisonedRAG, TKPA) ή την παθητική υδατοσήμανση (RAG-WM).
Καθώς το GraphRAG πολλαπλασιάζεται, η Microsoft, η Google και η Alibaba επενδύουν σε αυτό το εργαλείο, οπλίζοντας σε μεγάλο βαθμό τις επιχειρήσεις ενάντια σε ληστείες δεδομένων της εποχής της AI.

