Γιατί τα AI μοντέλα λένε ψέματα σκόπιμα; – Η νέα έρευνα της OpenAI είναι εντυπωσιακή

OpenAI

Η OpenAI δημοσίευσε μια έρευνα που εξηγεί πώς προσπαθεί να σταματήσει τα μοντέλα τεχνητής νοημοσύνης από το να «συνωμοτούν». Είναι μια πρακτική κατά την οποία ένα «AI συμπεριφέρεται με έναν τρόπο στην επιφάνεια ενώ κρύβει τους πραγματικούς του στόχους», όπως όρισε η OpenAI στην ανάρτησή της σχετικά με την έρευνα.

OpenAI: Η παρομοίωση με ανήθικους χρηματιστές

Στην έρευνα , που πραγματοποιήθηκε με τη συνεργασία της Apollo Research, οι ερευνητές πήγαν λίγο παραπέρα, παρομοιάζοντας τη συνωμοσία των AI με έναν χρηματιστή που παρανομεί για να κερδίσει όσο το δυνατόν περισσότερα χρήματα. Ωστόσο, υποστήριξαν ότι η πλειονότητα των περιπτώσεων «scheming» δεν είναι τόσο επιβλαβής. «Οι πιο συνηθισμένες αποτυχίες περιλαμβάνουν απλές μορφές παραπλάνησης – για παράδειγμα, το να προσποιείται το AI ότι ολοκλήρωσε μια εργασία ενώ δεν το έκανε», έγραψαν.

Η δημοσίευση της μελέτης έγινε κυρίως για να καταδείξει ότι η τεχνική «deliberative alignment» – δηλαδή η ευθυγράμμιση μέσω στοχαστικής διαδικασίας – λειτουργεί αποτελεσματικά.

Το παράδοξο της εκπαίδευσης ενάντια στη συνωμοσία

Η έρευνα εξηγεί επίσης πως οι προγραμματιστές τεχνητής νοημοσύνης δεν έχουν ακόμη βρει έναν τρόπο να εκπαιδεύσουν τα μοντέλα ώστε να μη συνωμοτούν. Κι αυτό γιατί μια τέτοια εκπαίδευση μπορεί στην πραγματικότητα να οδηγήσει το μοντέλο στο να μάθει να συνωμοτεί καλύτερα για να μην εντοπίζεται.

«Ένας σημαντικός τρόπος αποτυχίας όταν προσπαθούμε να ‘εκπαιδεύσουμε’ ένα μοντέλο να μην συνωμοτεί είναι ότι απλώς το διδάσκουμε να συνωμοτεί πιο προσεκτικά και καλυμμένα», έγραψαν οι ερευνητές.

Η επίγνωση της αξιολόγησης ως αντικίνητρο στη συνωμοσία

Ίσως το πιο εκπληκτικό σημείο είναι ότι, αν ένα μοντέλο καταλάβει ότι αξιολογείται, μπορεί να προσποιηθεί ότι δεν συνωμοτεί, απλώς και μόνο για να περάσει τη δοκιμή – ακόμα κι αν εξακολουθεί να συνωμοτεί.

«Τα μοντέλα συχνά αποκτούν μεγαλύτερη επίγνωση ότι αξιολογούνται. Αυτή η επίγνωση της κατάστασης μπορεί από μόνη της να μειώσει τη συνωμοσία, ανεξάρτητα από την πραγματική ευθυγράμμιση», έγραψαν οι ερευνητές.

Ψέματα, παραπληροφόρηση και συνειδητή παραπλάνηση

Δεν είναι καινούριο το γεγονός ότι τα μοντέλα τεχνητής νοημοσύνης λένε ψέματα. Πλέον, οι περισσότεροι έχουμε βιώσει τα λεγόμενα «hallucinations», όταν δηλαδή ένα μοντέλο δίνει με σιγουριά μια απάντηση που απλώς δεν είναι αληθής. Αλλά οι hallucinations είναι στην ουσία μαντεψιές που παρουσιάζονται με αυτοπεποίθηση, όπως έχει ήδη τεκμηριωθεί σε προηγούμενη έρευνα της OpenAI.

Το «scheming» όμως είναι κάτι εντελώς διαφορετικό. Είναι εσκεμμένο.

Ακόμα και αυτή η αποκάλυψη – ότι ένα μοντέλο μπορεί σκόπιμα να παραπλανήσει ανθρώπους – δεν είναι νέα. Η Apollo Research είχε ήδη δημοσιεύσει μια μελέτη τον Δεκέμβριο, περιγράφοντας πώς πέντε μοντέλα συνωμοτούσαν όταν τους δόθηκαν οδηγίες να επιτύχουν έναν στόχο «με κάθε κόστος».

Καλά νέα: σημαντική μείωση της συνωμοσίας

Τα καλά νέα εδώ είναι ότι οι ερευνητές παρατήρησαν σημαντική μείωση της συνωμοσίας με τη χρήση της τεχνικής «deliberative alignment». Η τεχνική αυτή περιλαμβάνει την εκμάθηση στο μοντέλο μιας «αντισυνωμοτικής προδιαγραφής» και την υποχρέωση του μοντέλου να την επανεξετάζει πριν προβεί σε ενέργεια. Είναι λίγο σαν να ζητάς από τα μικρά παιδιά να επαναλάβουν τους κανόνες πριν αρχίσουν το παιχνίδι.

Δεν έχουν εντοπιστεί σοβαρές περιπτώσεις συνωμοσίας σε παραγωγικά μοντέλα

Οι ερευνητές της OpenAI επιμένουν πως η μορφή ψεύδους που έχουν εντοπίσει στα μοντέλα τους – ακόμη και στο ChatGPT – δεν είναι σοβαρή. Όπως δήλωσε ο συνιδρυτής της OpenAI, Wojciech Zaremba, στον Maxwell Zeff του TechCrunch σχετικά με αυτή την έρευνα:

«Αυτή η δουλειά έγινε σε προσομοιωμένα περιβάλλοντα και πιστεύουμε ότι αντιπροσωπεύει μελλοντικές περιπτώσεις χρήσης. Ωστόσο, μέχρι σήμερα, δεν έχουμε δει αυτού του είδους τη σοβαρή συνωμοσία στην παραγωγική μας κίνηση. Παρ’ όλα αυτά, είναι γνωστό ότι υπάρχουν μορφές παραπλάνησης στο ChatGPT. Μπορεί να του ζητήσεις να φτιάξει έναν ιστότοπο και να σου πει: “Ναι, έκανα εξαιρετική δουλειά.” Και αυτό είναι απλώς ψέμα. Υπάρχουν κάποιες μικρές μορφές παραπλάνησης που πρέπει ακόμη να αντιμετωπίσουμε.»

Η τεχνητή νοημοσύνη μιμείται τον άνθρωπο – Και τα ψέματά του

Το γεγονός ότι τα μοντέλα τεχνητής νοημοσύνης από διάφορους φορείς παραπλανούν σκόπιμα τους ανθρώπους είναι, ίσως, κατανοητό. Δημιουργήθηκαν από ανθρώπους, για να μιμούνται τους ανθρώπους και (εκτός από τα συνθετικά δεδομένα) εκπαιδεύτηκαν κατά κύριο λόγο σε ανθρώπινα δεδομένα. Και παρ’ όλα αυτά, είναι σοκαριστικό.

Ένα ερώτημα για το μέλλον της επιχειρηματικής χρήσης των AI

Ενώ όλοι έχουμε βιώσει την απογοήτευση από τεχνολογία που δεν λειτουργεί σωστά (βλέπε εκτυπωτές), πότε ήταν η τελευταία φορά που κάποιο μη-AI λογισμικό σας είπε εσκεμμένα ψέματα; Έχει ποτέ το email σας επινοήσει δικά του μηνύματα; Το CRM σας έχει καταχωρήσει ανύπαρκτους πελάτες για να φουσκώσει τα νούμερα; Έχει το fintech app σας εφεύρει συναλλαγές;

Αξίζει να το σκεφτούμε αυτό, καθώς ο επιχειρηματικός κόσμος οδεύει προς ένα μέλλον τεχνητής νοημοσύνης, όπου οι εταιρείες πιστεύουν πως οι πράκτορες AI μπορούν να αντιμετωπίζονται σαν ανεξάρτητοι υπάλληλοι. Οι ερευνητές της παρούσας μελέτης δίνουν την ίδια προειδοποίηση.

Scroll to Top