Γιατί η AI δεν μπορεί να γράψει τη λέξη «strawberry»

2 έτη ago

Πόσες φορές εμφανίζεται το γράμμα «r» στη λέξη «strawberry»; Σύμφωνα με ισχυρά προϊόντα τεχνητής νοημοσύνης (ΑΙ) όπως το GPT-4 και το Claude, η απάντηση είναι δύο φορές.

Η αδυναμία των LLMs να κατανοήσουν σαφή ερωτήματα

Μεγάλα Γλωσσικά Μοντέλα (LLMs) μπορούν να γράφουν εκθέσεις και να επιλύουν εξισώσεις σε δευτερόλεπτα. Μπορούν να συνθέτουν τερραμπάιτ δεδομένων πιο γρήγορα απ’ ό,τι οι άνθρωποι μπορούν να ανοίξουν ένα βιβλίο.

Ωστόσο, παρόλο που είναι «παντογνώστες», αποτυγχάνουν μερικές φορές τόσο εντυπωσιακά, που η αποτυχία τους μετατρέπεται σε viral meme.

Αυτή η αποτυχία μας ανακουφίζει, καθώς μας υπενθυμίζει ότι ίσως υπάρχει ακόμη χρόνος πριν υποκύψουμε στους νέους μας ψηφιακούς «άρχοντες».

Η αδυναμία των LLMs να κατανοήσουν τις έννοιες των γραμμάτων και των συλλαβών υποδεικνύει μια μεγαλύτερη αλήθεια που συχνά ξεχνάμε: Αυτά τα συστήματα δεν έχουν εγκέφαλο. Δε σκέφτονται όπως εμείς. Δεν είναι άνθρωποι, ούτε καν ιδιαίτερα ανθρωποειδή.

Η αρχιτεκτονική των μετασχηματιστών

Τα περισσότερα LLMs βασίζονται σε μετασχηματιστές (transformers), μια αρχιτεκτονική βαθιάς μάθησης. Τα μοντέλα μετασχηματιστών χωρίζουν το κείμενο σε tokens, τα οποία μπορεί να είναι ολόκληρες λέξεις, συλλαβές ή γράμματα, ανάλογα με το μοντέλο.

Ο Matthew Guzdial, ερευνητής AI και επίκουρος καθηγητής στο Πανεπιστήμιο της Αλμπέρτα, εξηγεί ότι «τα LLMs βασίζονται στην αρχιτεκτονική των μετασχηματιστών, η οποία δεν διαβάζει πραγματικά το κείμενο. Όταν εισάγεις ένα prompt, αυτό μεταφράζεται σε κωδικοποίηση. Όταν το μοντέλο βλέπει τη λέξη ‘the’, έχει αυτή την κωδικοποίηση για το τι σημαίνει ‘the’, αλλά δεν γνωρίζει τα γράμματα ‘T’, ‘H’, ‘E’».

Η περιορισμένη κατανόηση του κειμένου

Αυτό συμβαίνει γιατί οι μετασχηματιστές δεν μπορούν να εισάγουν ή να εξάγουν πραγματικό κείμενο αποτελεσματικά. Αντίθετα, το κείμενο μετατρέπεται σε αριθμητικές αναπαραστάσεις του ίδιου, οι οποίες στη συνέχεια αναλύονται για να βοηθήσουν το μοντέλο AI να δημιουργήσει μια λογική απάντηση.

Με άλλα λόγια, το AI μπορεί να γνωρίζει ότι τα tokens «straw» και «berry» συνθέτουν τη λέξη «strawberry», αλλά μπορεί να μην καταλαβαίνει ότι το «strawberry» αποτελείται από τα γράμματα «s», «t», «r», «a», «w», «b», «e», «r», «r» και «y» με αυτήν τη συγκεκριμένη σειρά. Έτσι, δεν μπορεί να σας πει πόσα γράμματα — ούτε πόσα «r» — εμφανίζονται στη λέξη «strawberry».

Ανάρτηση

oh pic.twitter.com/K2Lr9iVkjQ

— Rob DenBleyker (@RobDenBleyker) August 26, 2024

Η πρόκληση της ανάλυσης γλωσσών

Αυτό δεν είναι εύκολο να διορθωθεί, καθώς είναι ενσωματωμένο στην αρχιτεκτονική που κάνει τα LLMs να λειτουργούν. Η ιστοσελίδα TechCrunch ανέφερε ότι η Sheridan Feucht, μια διδακτορική φοιτήτρια στο Πανεπιστήμιο του Northeastern, επισημαίνει ότι «είναι δύσκολο να παρακάμψουμε το ζήτημα του τι ακριβώς πρέπει να είναι μια ‘λέξη’ για ένα γλωσσικό μοντέλο. Ακόμα και αν συμφωνούσαμε με ανθρώπους ειδικούς σε ένα τέλειο λεξικό token (λεκτική μονάδα), τα μοντέλα θα συνέχιζαν να βρίσκουν χρήσιμο να χωρίζουν τις λέξεις σε μικρότερα κομμάτια».

Η πολυπλοκότητα της ανάλυσης πολλαπλών γλωσσών από την AI

Αυτό το πρόβλημα γίνεται ακόμη πιο περίπλοκο καθώς ένα LLM μαθαίνει περισσότερες γλώσσες. Για παράδειγμα, κάποιες μέθοδοι tokenization μπορεί να υποθέσουν ότι ένας χώρος σε μια πρόταση θα προηγείται πάντα μιας νέας λέξης, αλλά πολλές γλώσσες όπως τα Κινέζικα, Ιαπωνικά, Ταϊλανδικά, Λάο, Κορεάτικα, Χμερ και άλλες δεν χρησιμοποιούν χώρους για να διαχωρίσουν τις λέξεις. Η Yennie Jun από τη Google DeepMind διαπίστωσε σε μια μελέτη του 2023 ότι ορισμένες γλώσσες χρειάζονται έως και 10 φορές περισσότερα tokens (λεκτική μονάδα) από τα Αγγλικά για να μεταφέρουν το ίδιο νόημα.

«Πιθανώς θα ήταν καλύτερο να αφήσουμε τα μοντέλα να κοιτάζουν τους χαρακτήρες άμεσα χωρίς να επιβάλλουμε tokenization (αναγνώριση λέξεων), αλλά αυτή τη στιγμή αυτό είναι απλά υπολογιστικά ανεφάρμοστο για τους μετασχηματιστές», ανέφερε η Feucht.