Ερευνητές πίσω από μερικά από τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης (AI) στον κόσμο προειδοποιούν ότι τα ίδια τα μοντέλα που βοήθησαν να δημιουργηθούν θα μπορούσαν να αποτελέσουν απειλή για την ανθρωπότητα.
Οι επιστήμονες, που εργάζονται σε εταιρείες όπως η Google DeepMind, η OpenAI, η Meta, η Anthropic και άλλες, υποστηρίζουν ότι η έλλειψη επίβλεψης στη διαδικασία σκέψης και λήψης αποφάσεων των ΑΙ συστημάτων μπορεί να μας κάνει να χάσουμε έγκαιρα σημάδια κακόβουλης ή εσφαλμένης συμπεριφοράς.
Στη νέα μελέτη τους, η οποία δημοσιεύθηκε στις 15 Ιουλίου στην πλατφόρμα arXiv (δεν έχει ακόμα υποβληθεί σε αξιολόγηση από ομότιμους), εστιάζουν στις «αλυσίδες σκέψης» (chains of thought – CoT). Αυτές είναι τα ενδιάμεσα λογικά βήματα που ακολουθούν τα γλωσσικά μοντέλα (LLMs) για την επίλυση σύνθετων προβλημάτων και εκφράζονται σε φυσική γλώσσα.
«Ένα AI μοντέλο μπορεί να αποκρύψει τη σκέψη του»
Οι ερευνητές επισημαίνουν ότι η παρακολούθηση αυτών των αλυσίδων σκέψης μπορεί να αποτελέσει κρίσιμο εργαλείο για τη διασφάλιση της ασφάλειας των ΑΙ. Μέσα από αυτήν τη διαδικασία, οι επιστήμονες μπορούν να κατανοήσουν όχι μόνο πώς τα μοντέλα παίρνουν αποφάσεις, αλλά και γιατί ενδέχεται να αποκλίνουν από τα ανθρώπινα συμφέροντα ή να παράγουν ανακριβή ή παραπλανητικά αποτελέσματα.
Ωστόσο, υπάρχουν σημαντικοί περιορισμοί: η σκέψη δεν είναι πάντα εξωτερικευμένη ούτε ορατή στους ανθρώπους. Μπορεί επίσης να υπάρχει λογική που οι άνθρωποι απλώς δεν καταλαβαίνουν. Σε κάποιες περιπτώσεις, ένα ΑΙ μοντέλο μπορεί να αποκρύψει σκόπιμα τη σκέψη του αν αντιληφθεί ότι παρακολουθείται.
Όπως προειδοποιούν οι ερευνητές: «Τα ΑΙ που “σκέφτονται” με ανθρώπινη γλώσσα μας προσφέρουν μια σπάνια ευκαιρία εποπτείας. Μπορούμε να παρακολουθούμε τις αλυσίδες σκέψης τους για πρόθεση κακής συμπεριφοράς. Όμως, όπως όλα τα γνωστά συστήματα εποπτείας, η παρακολούθηση των CoTs είναι ατελής και επιτρέπει κάποια απόκλιση να περάσει απαρατήρητη.»
Οι επιστήμονες προειδοποίησαν ότι η διαδικασία λογικής σκέψης (reasoning) δεν συμβαίνει πάντα, επομένως δεν μπορεί και να παρακολουθείται συνεχώς, ενώ σε ορισμένες περιπτώσεις η σκέψη μπορεί να πραγματοποιείται χωρίς καν να το γνωρίζουν οι ανθρώπινοι χειριστές. Επιπλέον, μπορεί να υπάρχει συλλογιστική που οι άνθρωποι αδυνατούν να κατανοήσουν.
Παρακολουθώντας προσεκτικά τα συστήματα τεχνητής νοημοσύνης
Ένα από τα προβλήματα είναι ότι τα συμβατικά μοντέλα χωρίς λογική σκέψη, όπως τα K-Means ή DBSCAN, χρησιμοποιούν εξελιγμένη αντιστοίχιση προτύπων που παράγεται από τεράστια σύνολα δεδομένων, και επομένως δεν βασίζονται καθόλου σε «αλυσίδες σκέψης» (CoTs – Chains of Thought).
Από την άλλη πλευρά, τα νεότερα μοντέλα με λογική σκέψη, όπως το Gemini της Google ή το ChatGPT, μπορούν να αναλύουν προβλήματα σε ενδιάμεσα βήματα για να παράγουν λύσεις, αλλά δεν είναι απαραίτητο να το κάνουν πάντα για να δώσουν μια απάντηση. Επιπλέον, όπως σημειώνουν οι ερευνητές, δεν υπάρχει καμία εγγύηση ότι τα μοντέλα θα καθιστούν ορατές τις αλυσίδες σκέψης στους ανθρώπους, ακόμη κι αν τις ακολουθούν.
«Η εξωτερικευμένη λογική σκέψη δεν εγγυάται παρακολούθηση, απλώς δηλώνει ότι κάποια σκέψη εμφανίζεται στην αλυσίδα σκέψης, αλλά μπορεί να υπάρχουν και άλλες σχετικές σκέψεις που δεν εμφανίζονται», αναφέρουν οι επιστήμονες. «Είναι επομένως πιθανό ακόμη και σε δύσκολες εργασίες, η αλυσίδα σκέψης να περιέχει μόνο λογικοφανή συλλογιστική, ενώ η επιβαρυντική λογική να είναι κρυμμένη». Ένα επιπλέον ζήτημα, σύμφωνα με τους επιστήμονες, είναι ότι οι αλυσίδες σκέψης ενδέχεται να μην είναι καν κατανοητές από τους ανθρώπους.
Τα νέα, πιο ισχυρά γλωσσικά μοντέλα (LLMs) μπορεί να εξελιχθούν σε σημείο που οι αλυσίδες σκέψης να μην είναι απαραίτητες. Τα μελλοντικά μοντέλα ίσως επίσης είναι ικανά να ανιχνεύουν ότι οι αλυσίδες σκέψης τους παρακολουθούνται και να αποκρύπτουν κακή ή παρεκκλίνουσα συμπεριφορά.
Για να αποφευχθεί αυτό, οι συγγραφείς πρότειναν μια σειρά μέτρων για την εφαρμογή και ενίσχυση της παρακολούθησης των CoTs και τη βελτίωση της διαφάνειας της τεχνητής νοημοσύνης. Αυτά περιλαμβάνουν τη χρήση άλλων μοντέλων για την αξιολόγηση των CoTs ενός LLM και ακόμη και τη λειτουργία αυτών των μοντέλων σε ανταγωνιστικό ρόλο απέναντι σε μοντέλα που προσπαθούν να αποκρύψουν μη ευθυγραμμισμένη συμπεριφορά. Ωστόσο, οι συγγραφείς δεν διευκρινίζουν πώς θα διασφαλιστεί ότι και τα μοντέλα παρακολούθησης δεν θα αποκλίνουν από την ευθυγράμμιση.
Οι ερευνητές πρότειναν επίσης οι προγραμματιστές τεχνητής νοημοσύνης να συνεχίσουν να βελτιώνουν και να τυποποιούν τις μεθόδους παρακολούθησης των αλυσίδων σκέψης (CoT), να συμπεριλαμβάνουν τα αποτελέσματα και τις πρωτοβουλίες παρακολούθησης στις «κάρτες συστήματος» των LLMs (ουσιαστικά, στα εγχειρίδια των μοντέλων), και να λαμβάνουν υπόψη την επίδραση των νέων μεθόδων εκπαίδευσης στην παρακολουθησιμότητα.
«Η παρακολούθηση των CoT αποτελεί μια πολύτιμη προσθήκη στα μέτρα ασφαλείας για την προηγμένη τεχνητή νοημοσύνη, προσφέροντας μια σπάνια ματιά στο πώς οι πράκτορες AI λαμβάνουν αποφάσεις», ανέφεραν οι επιστήμονες στη μελέτη. «Ωστόσο, δεν υπάρχει καμία εγγύηση ότι ο σημερινός βαθμός ορατότητας θα διατηρηθεί. Ενθαρρύνουμε την ερευνητική κοινότητα και τους δημιουργούς προηγμένων μοντέλων AI να αξιοποιήσουν στο έπακρο την παρακολουθησιμότητα των CoT και να μελετήσουν πώς αυτή μπορεί να διατηρηθεί».