Πολλοί άνθρωποι παραδέχονται ότι έχουν έναν εσωτερικό μονόλογο στο κεφάλι τους και αφηγείται τη ζωή τους. Το φαινόμενο, καθώς και πλήθος ερευνών, υποδηλώνουν ότι οι άνθρωποι χρησιμοποιούν τη γλώσσα όχι μόνο για να επικοινωνούν, αλλά και για να σκέφτονται.
Τώρα, φαίνεται ότι η τεχνητή νοημοσύνη (AI) μπορεί να επωφεληθεί από τη μίμηση του εσωτερικού μονολόγου των ανθρώπων. Σε ένα εργαστηριακό πείραμα, η σύνδεση της γλώσσας με ενέργειες βελτίωσε την ικανότητα ενός προγράμματος τεχνητής νοημοσύνης να μαθαίνει σύνθετες εργασίες, ανέφεραν ερευνητές στο συνέδριο Neural Information Processing Systems (NeurIPS). Η πρόοδος αυτή θα μπορούσε να επιτρέψει στην τεχνητή νοημοσύνη να μαθαίνει, ας πούμε, από εκπαιδευτικά βίντεο στο YouTube.
«Μου άρεσε πολύ αυτό» ανέφερε η ψυχολόγος στο Πανεπιστήμιο Sapienza της Ρώμης, Anna Borghi, η οποία μελετά τη νόηση και τη γλώσσα και δεν συμμετείχε στο πείραμα. «Η πιο ενδιαφέρουσα πτυχή είναι ότι η παρουσία της γλώσσας παρέχει ευελιξία. Ακόμη και πολύπλοκες ενέργειες μπορούν να πραγματοποιηθούν πιο εύκολα».
Η Τεχνητή Νοημοσύνη με αρθρωμένες σκέψεις
Ως απόδειξη της έννοιας, οι Shengran Hu και Jeff Clune, επιστήμονες πληροφορικής στο Πανεπιστήμιο της Βρετανικής Κολομβίας, σχεδίασαν ένα πρόγραμμα τεχνητής νοημοσύνης που θα μπορούσε να εκτελεί αποστολές σε έναν εικονικό δισδιάστατο κόσμο που αποτελείται από ένα πλέγμα 20 επί 20. Σε πολλαπλές δοκιμές, το πλέγμα χωρίστηκε σε εννέα δωμάτια, με διάφορες διαμορφώσεις και διαχωρισμένα από πόρτες που μερικές φορές ήταν κλειδωμένες. Η τεχνητή νοημοσύνη μπορεί να έπρεπε να βρει ένα συγκεκριμένο αντικείμενο και να το τοποθετήσει δίπλα σε ένα άλλο, κάτι που μπορεί να απαιτούσε εκατοντάδες βήματα.
Το πρόγραμμα είχε δύο δομικά στοιχεία, το καθένα από τα οποία περιείχε ένα νευρωνικό δίκτυο – μια αρχιτεκτονική λογισμικού που μιμείται τον τρόπο με τον οποίο μαθαίνει ο εγκέφαλος. Το πρόγραμμα μπορούσε να “δει” μέρος του πλέγματος προς την κατεύθυνση που κοιτούσε και το πρώτο δομικό στοιχείο χρησιμοποιούσε αυτές τις “οπτικές” πληροφορίες καθώς και την αποστολή και τις προηγούμενες σκέψεις του προγράμματος για να δημιουργήσει μια νέα σκέψη, όπως “άνοιξε τη μπλε πόρτα για να εξερευνήσεις” ή “πήγαινε στο μωβ κουτί”. Το δεύτερο δομικό στοιχείο συνδύαζε τη σκέψη με την αποστολή και τις παρατηρήσεις για να επιλέξει ενέργειες. Μια απλή σκέψη μπορούσε να απαιτεί από λίγα έως περισσότερα από 100 βήματα για την εκτέλεσή της.
Η τεχνητή νοημοσύνη έπρεπε να εκπαιδευτεί, και για να το κάνουν αυτό οι ερευνητές βασίστηκαν σε ένα μεγάλο σύνολο δεδομένων από αποστολές που ολοκληρώθηκαν από ένα ρομπότ σχεδιασμένο ειδικά για την επίλυση τέτοιων προβλημάτων, αλλά και για τη δημιουργία κειμένου που περιέγραφε βήμα προς βήμα τι έκανε. Για λόγους σύγκρισης εκπαίδευσαν επίσης ένα πρόγραμμα χρησιμοποιώντας μια υπάρχουσα τεχνική που ονομάζεται “κλωνοποίηση συμπεριφοράς”. Έμαθε να προβλέπει τις ενέργειες με βάση την αποστολή και τις παρατηρήσεις, χωρίς το πλεονέκτημα των αρθρωμένων σκέψεων.
Στη συνέχεια, τα εκπαιδευμένα προγράμματα ανατέθηκαν νέες αποστολές σε νέους λαβύρινθους. Στις πιο σύνθετες αποστολές, το πρόγραμμα που εκπαιδεύτηκε να μιμείται τόσο τις ενέργειες όσο και τις σκέψεις πέτυχε περίπου το 80% των περιπτώσεων, ενώ το πρόγραμμα που εκπαιδεύτηκε να μιμείται μόνο τις ενέργειες πέτυχε μόνο το 30% των περιπτώσεων. Ο Hu εξηγεί ότι η γλώσσα βοηθάει κάποιον να μάθει έννοιες σε διαφορετικά επίπεδα αφαίρεσης και στη συνέχεια να τις συνδυάσει με νέους τρόπους. Το προηγμένο πρόγραμμα μπορούσε ακόμη και να επανεξετάσει τα σχέδιά του αφού αντιμετώπιζε απροσδόκητα εμπόδια, κάτι που ο Hu θεώρησε “τέλειο”.
Πέρα από τη βελτίωση των επιδόσεων, μια τεχνητή νοημοσύνη που εκπαιδεύεται χρησιμοποιώντας αυτό που οι Hu και Clune αποκαλούν “κλωνοποίηση σκέψης” προσφέρει στους χρήστες κάτι σπάνιο στον κόσμο των νευρωνικών δικτύων: την ευκαιρία να δουν τι “σκέφτεται” το πρόγραμμα. Αυτό θα βοηθήσει στην αποσφαλμάτωση των συστημάτων και θα ωφελήσει επίσης την ασφάλεια, λένε οι ερευνητές.
Εάν μια τεχνητή νοημοσύνη σχεδιάζει κάτι επικίνδυνο, ένας ανθρώπινος χειριστής μπορεί να το καταλάβει και να παρέμβει.
Σε δοκιμές μιας τέτοιας “προ-εγκληματικής παρέμβασης”, οι ερευνητές έδειξαν ότι μπορούσαν να σταματήσουν ένα πρόγραμμα πριν αυτός εκτελέσει μια απαγορευμένη ενέργεια. Απλώς πρόσθεσαν έναν κανόνα που ενεργοποιούνταν από τις σκέψεις του, χωρίς να χρειαστεί να επανεκπαιδεύσουν το μοντέλο. Ο Clune εξεπλάγη από το πόσο καλά λειτούργησε η προσέγγιση.
Οι ερευνητές εκπαίδευσαν τα συστήματά τους από το μηδέν. Ο Hu λέει ότι στο μέλλον μπορεί να προσπαθήσουν να προσθέσουν ένα στοιχείο εσωτερικού μονολόγου σε προ-εκπαιδευμένα μοντέλα όπως το GPT-4 Vision του OpenAI, το οποίο περιέχει ήδη στοιχεία γενικής γνώσης και συλλογισμού. Τελικά, ελπίζουν ότι τα προγράμματα τους που κλωνοποιούν τη σκέψη ,θα μάθουν χρήσιμες δεξιότητες από τις πληροφορίες που υπάρχουν σε πηγές, όπως τα βίντεο του YouTube, όπου ένας αφηγητής περιγράφει κάθε βήμα.
«Κάθε βίντεο με κάποιον που λέει: “Τώρα θα σας δείξω πώς να φτιάξετε ένα κρουασάν”, ή να μαγειρέψετε saag paneer, ή να αντικαταστήσετε το καρμπυρατέρ σε αυτό το παλιό Chevy, ή να φτιάξετε ένα σκασμένο λάστιχο, ή να επεξεργαστείτε μια φωτογραφία στο Photoshop, ή να κάνετε κράτηση για μια πτήση στην Expedia, ή να χτίσετε ένα σπίτι στο Minecraft”, θα είναι τροφή για μάθηση», τονίζει ο Clune.
«Νομίζω ότι η ιδέα του βίντεο στο YouTube είναι πολύ ενδιαφέρουσα», λέει ο Shunyu Yao, επιστήμονας πληροφορικής στο Πανεπιστήμιο Princeton, ο οποίος πρόσφατα ανέπτυξε το ReAct, ένα άλλο σύστημα συλλογισμού και δράσης. Αυτή η προσέγγιση θα μπορούσε να είναι δυνατή, αν στους ερευνητές «δοθούν πόροι επιπέδου OpenAI», λέει. Ωστόσο, θα μπορούσε επίσης να οδηγήσει σε νέες ανησυχίες σχετικά με τους προγραμματιστές τεχνητής νοημοσύνης που επωφελούνται από περιεχόμενο που δεν δημιούργησαν.
Σε έναν κόσμο όπου η τεχνητή νοημοσύνη μπορεί να κλωνοποιήσει τις ικανότητές μας για αφαίρεση και προσαρμογή, «μπορούμε να εισάγουμε τη νοημοσύνη των ανθρώπων και τις σαφείς και ισχυρές διαδικασίες σκέψης τους ακριβώς στα προγράμματα της τεχνητής νοημοσύνης», λέει ο Clune. «Είναι μια απλή εργασία για έναν άνθρωπο, αλλά ένα γιγαντιαίο άλμα προς τα εμπρός για το είδος της τεχνητής νοημοσύνης, ή κάτι τέτοιο».