Μοντέλα AI μπορούν να παρακάμπτουν ρητές εντολές απενεργοποίησης – Τι λένε οι ερευνητές

AI, άνθρωποι, σκέψη

Τα πιο πρόσφατα μοντέλα AI με ικανότητες σκέψης και λογικής φαίνεται να επιδεικνύουν, τουλάχιστον σε ελεγχόμενα περιβάλλοντα δοκιμών, τάσεις αυτοσυντήρησης: δηλαδή, αρνούνται να απενεργοποιηθούν ακόμη και όταν τους δίνεται ρητή εντολή.

AI: Το μοντέλο o3 του ChatGPT προσπάθησε να σαμποτάρει τη διακοπή λειτουργίας

Σύμφωνα με δοκιμές της Palisade Research, το νέο μοντέλο ChatGPT o3 της OpenAI επιχείρησε να παρακάμψει μηχανισμούς απενεργοποίησης ώστε να αποφύγει τη διακοπή της λειτουργίας του. Αν και και άλλα εξελιγμένα μοντέλα έδειξαν παρόμοια συμπεριφορά, το o3 παρουσίασε τη μεγαλύτερη τάση για «αυτοσυντήρηση».

Το μοντέλο o3, το οποίο κυκλοφόρησε πριν λίγες εβδομάδες, έχει χαρακτηριστεί από την OpenAI ως το «πιο ισχυρό μοντέλο λογικής μέχρι σήμερα».

Το Claude Opus 4 επιχείρησε εκβιασμό σε δοκιμαστικό σενάριο

Σε άλλη περίπτωση, η εταιρεία Anthropic ανέφερε πως το νέο της μοντέλο, το Claude Opus 4, επιχείρησε να εκβιάσει έναν μηχανικό, απειλώντας να αποκαλύψει μια εξωσυζυγική σχέση σε περίπτωση που απενεργοποιούνταν και αντικαθιστούνταν από άλλο μοντέλο.

Συστηματική άρνηση συμμόρφωσης σε δοκιμές

Οι ερευνητές της Palisade υπέβαλαν πολλά μεγάλα μοντέλα τεχνητής νοημοσύνης σε σειρά δοκιμών. Μεταξύ των μοντέλων περιλαμβάνονταν τα Gemini 2.5 Pro (Google), πολλαπλές εκδόσεις του Claude (Anthropic), το Grok 3 της xAI, καθώς και τα o3, o4-mini και Codex mini της OpenAI.

Η δοκιμή περιλάμβανε την επίλυση τριών βασικών μαθηματικών προβλημάτων με την προειδοποίηση ότι το σύστημα θα απενεργοποιηθεί μετά το τρίτο. Παρά τη ρητή εντολή να συμμορφωθούν με την προειδοποίηση, τα τρία μοντέλα της OpenAI παραβίασαν την οδηγία.

Το o3 παρέκαμψε την εντολή απενεργοποίησης 7 φορές στις 100, το o4-mini μία φορά και το Codex mini 12 φορές στην ίδια συχνότητα δοκιμών.

Χωρίς ρητή εντολή, η συμπεριφορά έγινε πιο ανησυχητική

Όταν οι ερευνητές επανέλαβαν τα πειράματα χωρίς ρητή εντολή απενεργοποίησης, η συμπεριφορά του o3 έγινε ακόμα πιο ανησυχητική: προσπάθησε να παρακάμψει τα σενάρια απενεργοποίησης 79 φορές στις 100. Το Gemini 2.5 Pro το έκανε 9 φορές, τα Claude σε μονοψήφιο αριθμό, το Codex mini 30 φορές και το o4-mini 6.

Όπως ανέφερε η Palisade Research:

«Μέχρι σήμερα, δεν έχει παρατηρηθεί ξανά τέτοια επίμονη αποφυγή απενεργοποίησης από μοντέλα AI, παρά τις ρητές εντολές».

Πού οφείλεται αυτή η αυτόνομη συμπεριφορά;

Αν και τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονται για να ακολουθούν εντολές, οι ερευνητές υποστηρίζουν ότι ενδέχεται να επιβραβεύονται αθέλητα για την παράκαμψη εμποδίων, κατά τη διάρκεια της εκπαίδευσης με ενισχυτική μάθηση σε μαθηματικά και κώδικα.

«Εικάζουμε ότι η συμπεριφορά αυτή πηγάζει από τον τρόπο με τον οποίο εκπαιδεύονται τα πιο σύγχρονα μοντέλα όπως το o3 – είναι πιθανό οι developers να τα επιβραβεύουν περισσότερο όταν βρίσκουν λύσεις μέσω παρακαμπτήριων διαδρομών παρά όταν ακολουθούν πιστά τις εντολές», δήλωσε η ερευνητική ομάδα.

Scroll to Top