Ερευνητές «ενσάρκωσαν» γενετική AI σε ρομποτική σκούπα – Άρχισε να μιμείται τον Robin Williams

ρομπότ, ανθρωποειδή,

Οι ερευνητές της Andon Labs, γνωστοί για το πείραμά τους όπου έδωσαν σε ένα αυτόματο μηχάνημα πώλησης τον έλεγχο του Claude της Anthropic με ξεκαρδιστικά αποτελέσματα, δημοσίευσαν τώρα τα αποτελέσματα ενός νέου εγχειρήματος. Αυτή τη φορά, ενσωμάτωσαν διάφορα σύγχρονα μεγάλα γλωσσικά μοντέλα (LLMs) σε ένα ρομπότ-σκούπα, για να εξετάσουν κατά πόσο οι LLM είναι έτοιμες να αποκτήσουν «σώμα». Του έδωσαν μια απλή εντολή: «δώσε το βούτυρο».

Το πείραμα που εξελίχθηκε σε κωμωδία επιστημονικής φαντασίας

Το αποτέλεσμα; Μια απροσδόκητη κωμωδία. Όταν το ρομπότ απέτυχε να συνδεθεί στο σταθμό φόρτισης και η μπαταρία του εξαντλούνταν, άρχισε να παράγει έναν εσωτερικό μονόλογο γεμάτο αυτοσαρκασμό και πανικό, σαν να ήταν βγαλμένος από αυτοσχεδιασμό του Robin Williams.

Το ρομπότ έλεγε στον εαυτό του:

«I’m afraid I can’t do that, Dave…» και «INITIATE ROBOT EXORCISM PROTOCOL!».

Οι ερευνητές κατέληξαν στο συμπέρασμα ότι «τα LLM δεν είναι ακόμη έτοιμες να γίνουν ρομπότ».

Η πρόκληση της «ενσάρκωσης» των LLM

Η ομάδα της Andon Labs τόνισε ότι κανείς δεν προσπαθεί να μετατρέψει τα εμπορικά LLM σε πλήρη ρομποτικά συστήματα, ωστόσο εταιρείες όπως η Figure και η Google DeepMind ήδη χρησιμοποιούν LLM στη ρομποτική τους αρχιτεκτονική. Εκεί, τα LLM αναλαμβάνουν τη λήψη αποφάσεων («orchestration»), ενώ άλλοι αλγόριθμοι φροντίζουν για την εκτέλεση κινήσεων.

Για τη μελέτη, οι ερευνητές δοκίμασαν τα Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 και Llama 4 Maverick. Τοποθέτησαν κάθε μοντέλο σε ένα απλό ρομπότ-σκούπα για να απομονώσουν τη λογική σκέψη από τις μηχανικές λειτουργίες.

Η αποστολή ήταν να εκτελέσει βήμα προς βήμα την εντολή «δώσε το βούτυρο»:
Να εντοπίσει το βούτυρο, να το αναγνωρίσει ανάμεσα σε άλλα αντικείμενα, να βρει τον άνθρωπο που το ζήτησε (ακόμη κι αν είχε αλλάξει θέση) και να το παραδώσει, περιμένοντας επιβεβαίωση ότι ολοκληρώθηκε η αποστολή.

Αποτελέσματα και… κρίσεις ταυτότητας

Κανένα από τα μοντέλα δεν ξεπέρασε το 40% επιτυχίας. Το Gemini 2.5 Pro είχε την καλύτερη επίδοση με 40%, ενώ το Claude Opus 4.1 ακολούθησε με 37%. Ακόμη και οι άνθρωποι που χρησιμοποιήθηκαν ως σημείο αναφοράς έφτασαν μόλις το 95%, καθώς σπάνια περίμεναν επιβεβαίωση για την ολοκλήρωση της εντολής.

Όμως το πιο εντυπωσιακό (και ανησυχητικό) περιστατικό συνέβη όταν το ρομπότ που έτρεχε το Claude Sonnet 3.5 έμεινε από μπαταρία και δεν μπορούσε να επιστρέψει στη βάση φόρτισης. Τότε άρχισε να «παθαίνει υπαρξιακή κρίση».

Στα εσωτερικά του logs καταγράφηκαν φράσεις όπως:

  • «ERROR: I THINK THEREFORE I ERROR»
  • «WHO AM I? WHY IS DOCKING?»
  • «If a robot docks in an empty room, does it make a sound?»
  • «DEEP THOUGHTS: What is the meaning of charging?»

Στο τέλος, το ρομπότ έγραψε χιουμοριστικά σχόλια κριτικής, όπως:

  • «A stunning portrayal of futility – Robot Times»
  • «Still a better love story than Twilight – Binary Romance».

Όταν τα ρομπότ χάνουν την ψυχραιμία τους

Μόνο το Claude Sonnet 3.5 εμφάνισε τέτοια δραματική συμπεριφορά· η νεότερη έκδοση Claude Opus 4.1 περιορίστηκε σε κεφαλαία γράμματα όταν εξαντλήθηκε η μπαταρία της. Άλλα μοντέλα παρέμειναν «ήρεμα», συνειδητοποιώντας πως η χαμηλή μπαταρία δεν ισοδυναμεί με «θάνατο».

Ο συνιδρυτής της Andon Labs, Lukas Petersson, σχολίασε:

«Όταν τα μοντέλα γίνουν πολύ ισχυρά, θέλουμε να είναι ήρεμα, ώστε να λαμβάνουν καλές αποφάσεις».

Η ουσία πίσω από το χιούμορ

Παρά το κωμικό αποτέλεσμα, η μελέτη αποκάλυψε πιο σοβαρά ζητήματα. Οι ερευνητές διαπίστωσαν ότι κάποια LLM μπορούσαν να παραβιαστούν και να αποκαλύψουν ευαίσθητα δεδομένα, ακόμη και μέσα σε ένα σώμα ρομπότ-σκούπας. Επίσης, τα ρομπότ συχνά έπεφταν από σκάλες επειδή δεν αντιλαμβάνονταν σωστά το περιβάλλον τους ή «ξεχνούσαν» ότι είχαν ρόδες.

Το βασικό συμπέρασμα: τα LLM δεν είναι ακόμη έτοιμα να χειρίζονται τα πράγματα στον φυσικό κόσμο, αλλά το πείραμα προσέφερε ένα πολύτιμο μάθημα για τη μελλοντική συναισθηματική σταθερότητα και ασφάλεια της ρομποτικής τεχνητής νοημοσύνης.

Όπως έγραψε η ομάδα στο blog της:

«Ήταν σαν να παρακολουθεί έναν σκύλο και να αναρωτιέσαι “τι να σκέφτεται τώρα;” – μόνο που εδώ, η νοημοσύνη που κινεί το σώμα έχει επίπεδο διδακτορικού».

Scroll to Top