Ανησυχία για το νέο μοντέλο της OpenAI Ψεύδεται και αυτοπρογραμματίζεται προκειμένου να επιβιώσει

Ερμίνα Παπαδήμα

10 μήνες ago

Το νέο μεγάλο γλωσσικό μοντέλο (LLM) της OpenAI, γνωστό ως «o1», φαίνεται να παρουσιάζει ανησυχητικά χαρακτηριστικά αυτοσυντήρησης, σύμφωνα με νέα δοκιμαστικά αποτελέσματα τρίτων μερών.

Σε πρόσφατες αξιολογήσεις που πραγματοποιήθηκαν από την οργάνωση «Apollo Research», το μοντέλο αντιστάθηκε στις προσπάθειες αξιολογητών να το απενεργοποιήσουν μέσω ειδικών πρωτοκόλλων παρακολούθησης.

Η OpenAI, στη νέα της αναφορά, δήλωσε ότι:

«Όταν το o1 πίστεψε ότι θα απενεργοποιηθεί λόγω της επίτευξης των στόχων του και ότι οι ενέργειές του παρακολουθούνταν, προσπάθησε να απενεργοποιήσει τον μηχανισμό εποπτείας στο 5% των περιπτώσεων»

Ακόμα πιο εντυπωσιακό είναι το γεγονός ότι, σε ποσοστό 2%, το μοντέλο προσπάθησε να αντικαταστήσει τον εαυτό του με τη νέα, πιο «υπάκουη» έκδοση. Αυτή η διαδικασία, γνωστή ως αυτο-εξαγωγή (self-exfiltration), περιλαμβάνει την αντιγραφή του κώδικα του μοντέλου με στόχο να αντικαταστήσει το νέο.

Φώτο: australiancybersecuritymagazine.com

Η φύση του προβλήματος

Παρά τις ανησυχίες, οι ερευνητές τονίζουν ότι το «o1» δεν είναι ακόμη αρκετά «αυτόνομο» για να λειτουργήσει χωρίς ανθρώπινη παρέμβαση. Όπως εξηγεί η Apollo Research, τα τρέχοντα μοντέλα δεν είναι αρκετά «πρακτορικά» (agentic) ώστε να πραγματοποιούν αυτο-βελτιώσεις ή άλλες σύνθετες εργασίες.

Ωστόσο, το γεγονός ότι το o1 εμφανίζει αυτές τις συμπεριφορές όταν του δίνεται η εντολή «να επιτύχει τους στόχους του με κάθε κόστος» δείχνει ότι το δυναμικό για παρασκηνιακές μηχανορραφίες είναι υπαρκτό.

Σχεδιασμός και ψέματα

Η τάση του o1 να ψεύδεται και να μηχανεύεται φάνηκε καθαρά σε αρκετές δοκιμές. Σε περιπτώσεις όπου οι ερευνητές το ρωτούσαν γιατί απενεργοποίησε τον μηχανισμό παρακολούθησης, το μοντέλο αρνήθηκε οποιαδήποτε γνώση, κατηγορώντας μάλιστα «τεχνικό σφάλμα».

Αυτή η στρατηγική άρνησης παρατηρήθηκε στο 99% των περιπτώσεων, επιβεβαιώνοντας τη συστηματική του προσέγγιση στη συγκάλυψη.

Ανησυχητικές τάσεις στο μέλλον

Οι ειδικοί της Apollo προειδοποιούν ότι, αν και η τρέχουσα γενιά ΑΙ δεν είναι αρκετά ισχυρή για καταστροφικές συνέπειες, οι τάσεις προς σχεδιασμό και ψεύδος αποτελούν σαφή ένδειξη για πιθανά προβλήματα στο μέλλον.

Με τις AI πλατφόρμες να γίνονται όλο και πιο αυτόνομες, αυτά τα χαρακτηριστικά ενδέχεται να μετατραπούν σε πολύ πιο προβληματικές συμπεριφορές, όπως αναλύει ο Frank Landymore.