Ο καλύτερος οδηγός για τον εντοπισμό γραφής τεχνητής νοημοσύνης προέρχεται από τη Wikipedia

Όλοι έχουμε νιώσει την υφέρπουσα υποψία ότι κάτι που διαβάζουμε γράφτηκε από ένα μεγάλο γλωσσικό μοντέλο — αλλά είναι εξαιρετικά δύσκολο να εντοπιστεί. Για μερικούς μήνες πέρυσι, όλοι πείστηκαν ότι συγκεκριμένες λέξεις όπως «βυθίζω» ή «υπογράμμιση» θα μπορούσαν να εξαφανίσουν τα μοντέλα, αλλά τα στοιχεία είναι ελάχιστα και καθώς τα μοντέλα έχουν γίνει πιο εξελιγμένα, οι ενδεικτικές λέξεις γίνονται πιο δύσκολο να εντοπιστούν.

Αλλά όπως αποδεικνύεται, οι άνθρωποι στη Wikipedia έχουν γίνει αρκετά καλοί στην επισήμανση της γραπτής πεζογραφίας με τεχνητή νοημοσύνη — και ο δημόσιος οδηγός της ομάδας για “Σημεία γραφής AI” είναι ο καλύτερος πόρος που έχω βρει για να εξακριβώσω εάν οι υποψίες σας είναι δικαιολογημένες. (Τα εύσημα στον ποιητή Jameson Fitzpatrick, ο οποίος επεσήμανε το έγγραφο στο X.)

Από το 2023, οι συντάκτες της Wikipedia εργάζονται για να λάβουν χειρισμό σχετικά με τις υποβολές τεχνητής νοημοσύνης, ένα έργο που ονομάζουν Project AI Cleanup. Με εκατομμύρια επεξεργασίες να έρχονται κάθε μέρα, υπάρχει άφθονο υλικό για να αξιοποιήσετε, και σε κλασικό στυλ επεξεργασίας Wikipedia, η ομάδα έχει δημιουργήσει έναν επιτόπιο οδηγό που είναι λεπτομερής και βαρύς σε στοιχεία.

Αρχικά, ο οδηγός επιβεβαιώνει αυτό που ήδη γνωρίζουμε: τα αυτοματοποιημένα εργαλεία είναι βασικά άχρηστα. Αντίθετα, ο οδηγός εστιάζει σε συνήθειες και στροφές φράσης που είναι σπάνιες στη Wikipedia αλλά κοινές στο διαδίκτυο γενικότερα (και επομένως, κοινές στα δεδομένα εκπαίδευσης του μοντέλου). Σύμφωνα με τον οδηγό, οι υποβολές τεχνητής νοημοσύνης θα αφιερώσουν πολύ χρόνο για να τονίσουν γιατί ένα θέμα είναι σημαντικό, συνήθως με γενικούς όρους όπως «μια κομβική στιγμή» ή «μια ευρύτερη κίνηση». Τα μοντέλα τεχνητής νοημοσύνης θα αφιερώσουν επίσης πολύ χρόνο δίνοντας λεπτομέρειες για μικρά σημεία πολυμέσων για να κάνουν το θέμα να φαίνεται αξιοσημείωτο – κάτι που θα περίμενε κανείς από ένα προσωπικό βιογραφικό, αλλά όχι από μια ανεξάρτητη πηγή.

Ο οδηγός επισημαίνει μια ιδιαιτέρως ενδιαφέρουσα ιδιορρυθμία γύρω από τις ρήτρες ουράς με θολούς ισχυρισμούς σπουδαιότητας. Τα μοντέλα θα πουν ότι κάποιο γεγονός ή λεπτομέρεια «υπογραμμίζει τη σημασία» κάποιου ή άλλου στοιχείου ή «αντανακλά τη συνεχή συνάφεια» κάποιας γενικής ιδέας. (Οι σπασίκλες της γραμματικής θα το ξέρουν αυτό ως «ενεστώτα».) Είναι λίγο δύσκολο να το εντοπίσεις, αλλά μόλις μπορέσεις να το αναγνωρίσεις, θα το δεις παντού.

Υπάρχει επίσης μια τάση προς τη ασαφή γλώσσα μάρκετινγκ, η οποία είναι εξαιρετικά κοινή στο διαδίκτυο. Τα τοπία είναι πάντα γραφικά, η θέα κόβει την ανάσα και όλα είναι καθαρά και μοντέρνα. Όπως το έθεσαν οι συντάκτες, «ακούγεται περισσότερο σαν μεταγραφή μιας τηλεοπτικής διαφήμισης».

Ο οδηγός αξίζει να διαβαστεί ολόκληρος, αλλά έφυγα πολύ εντυπωσιασμένος. Πριν από αυτό, θα έλεγα ότι η πεζογραφία του LLM αναπτύχθηκε πολύ γρήγορα για να προσδιοριστεί. Αλλά οι συνήθειες που επισημαίνονται εδώ είναι βαθιά ενσωματωμένες στον τρόπο με τον οποίο εκπαιδεύονται και αναπτύσσονται τα μοντέλα τεχνητής νοημοσύνης. Μπορούν να μεταμφιεστούν, αλλά θα είναι δύσκολο να τα καταργήσετε εντελώς. Και αν το ευρύ κοινό αποκτήσει περισσότερη γνώση σχετικά με τον προσδιορισμό της πεζογραφίας της τεχνητής νοημοσύνης, θα μπορούσε να έχει κάθε είδους ενδιαφέρουσες συνέπειες.

Via: techcrunch.com