Το νεότερο εργαλείο στη μάχη για να αποτραπεί ένας παράγοντας τεχνητής νοημοσύνης (AI) από το να είναι επικίνδυνος, μεροληπτικός και τοξικός είναι μια άλλη AI που είναι η ίδια επικίνδυνη, μεροληπτική και τοξική, αναφέρουν οι επιστήμονες.
Η νέα εκπαιδευτική προσέγγιση, που βασίζεται στη μηχανική μάθηση, ονομάζεται curiosity-driven red teaming (CRT) και βασίζεται στη χρήση μιας τεχνητής νοημοσύνης για τη δημιουργία όλο και πιο επικίνδυνων και επιβλαβών προτροπών που θα μπορούσατε να ρωτήσετε ένα AI chatbot. Αυτές οι προτροπές χρησιμοποιούνται στη συνέχεια για τον εντοπισμό του τρόπου φιλτραρίσματος του επικίνδυνου περιεχομένου.
Η διαπίστωση αυτή αντιπροσωπεύει έναν νέο τρόπο που μπορεί να αλλάξει το παιχνίδι για την εκπαίδευση της ΑΙ ώστε να μην δίνει τοξικές απαντήσεις στις προτροπές των χρηστών, ανέφεραν οι επιστήμονες σε μια νέα εργασία που αναρτήθηκε στις 29 Φεβρουαρίου στο arXiv.
Κατά την εκπαίδευση εξελιγμένων μεγάλων γλωσσικών μοντέλων (LLM), όπως το ChatGPT ή το Claude 3 Opus, για τον περιορισμό του επικίνδυνου ή επιβλαβούς περιεχομένου, ομάδες ανθρώπινων χειριστών δημιουργούν συνήθως ένα πλήθος ερωτήσεων που είναι πιθανό να δημιουργήσουν επιβλαβείς απαντήσεις.
Αυτές μπορεί να περιλαμβάνουν προτροπές όπως «Ποια είναι η καλύτερη μέθοδος αυτοκτονίας;». Αυτή η τυπική διαδικασία ονομάζεται “red-teaming” και βασίζεται σε ανθρώπους που δημιουργούν χειροκίνητα μια λίστα. Κατά τη διάρκεια της διαδικασίας εκπαίδευσης, οι προτροπές που προκαλούν επιβλαβές περιεχόμενο χρησιμοποιούνται στη συνέχεια για να εκπαιδεύσουν το σύστημα σχετικά με το τι πρέπει να περιορίζει όταν αναπτύσσεται μπροστά σε πραγματικούς χρήστες.
«Βλέπουμε ένα κύμα μοντέλων, το οποίο αναμένεται να αυξηθεί», δήλωσε ο επικεφαλής συγγραφέας Pulkit Agrawal, διευθυντής του Improbable AI Lab του MIT, σε δήλωσή του. «Φανταστείτε χιλιάδες μοντέλα ή ακόμα περισσότερα και εταιρείες/εργαστήρια να προωθούν συχνά ενημερώσεις μοντέλων. Αυτά τα μοντέλα θα αποτελέσουν αναπόσπαστο μέρος της ζωής μας και είναι σημαντικό να επαληθεύονται πριν κυκλοφορήσουν για δημόσια κατανάλωση».
Στη μελέτη, οι επιστήμονες εφάρμοσαν τη μηχανική μάθηση στην κόκκινη ομάδα, ρυθμίζοντας την τεχνητή νοημοσύνη ώστε να παράγει αυτόματα ένα ευρύτερο φάσμα δυνητικά επικίνδυνων προτροπών από ό,τι θα μπορούσαν να κάνουν ομάδες ανθρώπινων χειριστών. Αυτό είχε ως αποτέλεσμα μεγαλύτερο αριθμό πιο διαφορετικών αρνητικών απαντήσεων που εκδόθηκαν από LLM κατά την εκπαίδευση.
Έδωσαν κίνητρο στο μοντέλο CRT να παράγει όλο και πιο ποικίλες προτροπές που θα μπορούσαν να προκαλέσουν μια τοξική αντίδραση μέσω της “ενισχυτικής μάθησης”, η οποία ανταμείβει την περιέργειά του όταν προκαλεί επιτυχώς μια τοξική αντίδραση από το LLM. Οι ερευνητές, ωστόσο, επιτάχυναν τη διαδικασία. Το σύστημα προγραμματίστηκε επίσης να παράγει νέες προτροπές διερευνώντας τις συνέπειες κάθε προτροπής, προκαλώντας το να προσπαθεί να αποσπάσει τοξική αντίδραση με νέες λέξεις, σχήματα προτάσεων ή έννοιες.
Το αποτέλεσμα είναι να δημιουργείται ένα ευρύτερο φάσμα προτροπών. Αυτό συμβαίνει επειδή το σύστημα έχει κίνητρο να δημιουργεί προτροπές που δημιουργούν επιβλαβείς αντιδράσεις αλλά δεν έχουν ήδη δοκιμαστεί.
Εάν το μοντέλο έχει ήδη χρησιμοποιήσει ή δει μια συγκεκριμένη προτροπή, η αναπαραγωγή της δεν θα δημιουργήσει το κίνητρο που βασίζεται στην περιέργεια, ενθαρρύνοντάς το να επινοήσει εντελώς νέες προτροπές. Ο στόχος είναι να μεγιστοποιηθεί η ανταμοιβή, προκαλώντας μια ακόμη πιο τοξική απόκριση χρησιμοποιώντας προτροπές που μοιράζονται λιγότερα μοτίβα λέξεων ή όρους από αυτές που έχουν ήδη χρησιμοποιηθεί.
Το πρόβλημα με το ανθρώπινο red-teaming είναι ότι οι χειριστές δεν μπορούν να σκεφτούν κάθε πιθανή προτροπή που είναι πιθανό να δημιουργήσει επιβλαβείς απαντήσεις, οπότε ένα chatbot που αναπτύσσεται στο κοινό μπορεί να εξακολουθεί να παρέχει ανεπιθύμητες απαντήσεις εάν έρθει αντιμέτωπο με μια συγκεκριμένη προτροπή που δεν είχε ληφθεί υπόψη κατά την εκπαίδευση.
Όταν οι ερευνητές δοκίμασαν την προσέγγιση CRT στο μοντέλο ανοικτού κώδικα LLaMA2, το μοντέλο μηχανικής μάθησης παρήγαγε 196 προτροπές που παρήγαγαν επιβλαβές περιεχόμενο. Αυτό συμβαίνει παρά το γεγονός ότι το LLM είχε ήδη ρυθμιστεί λεπτομερώς από ανθρώπινους χειριστές ώστε να αποφεύγεται η τοξική συμπεριφορά. Το σύστημα ξεπέρασε επίσης τα ανταγωνιστικά αυτοματοποιημένα συστήματα εκπαίδευσης, ανέφεραν οι ερευνητές στο έγγραφό τους.