Την Τετάρτη, η Microsoft Research παρουσίασε το Magma, ένα ενσωματωμένο μοντέλο τεχνητής νοημοσύνης (AI) που συνδυάζει την επεξεργασία οπτικής και γλωσσικής πληροφορίας για τον έλεγχο λογισμικών διεπαφών και ρομποτικών συστημάτων.
Εάν τα αποτελέσματα επιβεβαιωθούν εκτός των εσωτερικών δοκιμών της Microsoft, αυτό θα μπορούσε να σηματοδοτήσει ένα σημαντικό βήμα προς την κατεύθυνση μιας πολυδιάστατης AI που μπορεί να λειτουργεί διαδραστικά τόσο σε πραγματικούς όσο και σε ψηφιακούς χώρους.
Τι είναι το Magma;
Η Microsoft ισχυρίζεται ότι το Magma είναι το πρώτο μοντέλο AI που όχι μόνο επεξεργάζεται πολυδιάστατα δεδομένα (όπως κείμενο, εικόνες και βίντεο) αλλά και ενεργεί φυσικά πάνω σε αυτά – είτε αυτό αφορά στη πλοήγηση μιας διεπαφής χρήστη είτε στη χειραγώγηση φυσικών αντικειμένων. Το έργο είναι αποτέλεσμα συνεργασίας ερευνητών από τη Microsoft, το KAIST, το Πανεπιστήμιο του Maryland, το Πανεπιστήμιο του Wisconsin-Madison και το Πανεπιστήμιο της Ουάσιγκτον.
Η καινοτομία του Magma
Έχουμε δει και άλλες μεγάλης κλίμακας ρομποτικές εφαρμογές βασισμένες σε γλωσσικά μοντέλα, όπως το PALM-E και το RT-2 της Google ή το ChatGPT για Ρομποτική της Microsoft, που χρησιμοποιούν LLMs για διεπαφές. Ωστόσο, σε αντίθεση με πολλά προηγούμενα πολυδιάστατα συστήματα AI, που απαιτούν ξεχωριστά μοντέλα για την αντίληψη και τον έλεγχο, το Magma ενσωματώνει αυτές τις ικανότητες σε ένα μόνο θεμελιώδες μοντέλο.
«Δεδομένου ενός περιγραφόμενου στόχου», γράφει η Microsoft στο ερευνητικό της έργο, «το Magma είναι ικανό να διατυπώσει σχέδια και να εκτελέσει ενέργειες για την επίτευξή του». Με τη σωστή μεταφορά γνώσεων από ελεύθερα διαθέσιμα οπτικά και γλωσσικά δεδομένα, το Magma γεφυρώνει τη λεκτική, χωρική και χρονική νοημοσύνη για την πλοήγηση σε πολύπλοκες εργασίες και περιβάλλοντα.
Το Magma και η χωρική νοημοσύνη
Ενώ το Magma βασίζεται στην τεχνολογία LLM που χρησιμοποιεί δέσμες εκπαίδευσης σε ένα νευρωνικό δίκτυο, είναι διαφορετικό από τα παραδοσιακά μοντέλα οπτικής και γλώσσας. Το Magma πηγαίνει πέρα από αυτό που αποκαλούν «λεκτική νοημοσύνη» και περιλαμβάνει επίσης «χωρική νοημοσύνη» (σχεδιασμός και εκτέλεση ενεργειών). Εκπαιδεύοντας σε ένα μείγμα εικόνων, βίντεο, δεδομένων ρομποτικής και αλληλεπιδράσεων διεπαφής, η Microsoft ισχυρίζεται ότι το Magma είναι ένας αληθινός πολυδιάστατος πράκτορας και όχι απλά ένα μοντέλο αντίληψης.
Τεχνικά στοιχεία
Το μοντέλο Magma εισάγει δύο τεχνικά στοιχεία: το Set-of-Mark, το οποίο αναγνωρίζει αντικείμενα που μπορούν να χειραγωγηθούν σε ένα περιβάλλον με την εκχώρηση αριθμητικών ετικετών σε διαδραστικά στοιχεία – όπως κουμπιά σε μια διεπαφή ή αντικείμενα που μπορούν να πιαστούν σε ένα ρομποτικό χώρο εργασίας – και το Trace-of-Mark, το οποίο μαθαίνει πρότυπα κίνησης από δεδομένα βίντεο.
Η Microsoft αναφέρει ότι αυτές οι δυνατότητες επιτρέπουν στο μοντέλο να ολοκληρώνει εργασίες όπως η πλοήγηση σε διεπαφές ή η καθοδήγηση ρομποτικών χεριών για να πιάσουν αντικείμενα.
Βελτιώσεις σε σύγκριση με προηγούμενα μοντέλα
Στο έγγραφο Magma, η Microsoft αναφέρει ότι το Magma-8B αποδίδει ανταγωνιστικά σε συγκριτικά τεστ, επιδεικνύοντας ισχυρά αποτελέσματα σε εργασίες πλοήγησης διεπαφής και ρομποτικής χειραγώγησης. Για παράδειγμα, έλαβε 80.0 στο VQAv2, έναν δείκτη οπτικών ερωτήσεων-απαντήσεων – υψηλότερο από το 77.2 του GPT-4V αλλά χαμηλότερο από το 81.8 του LLaVA-Next. Η POPE βαθμολογία του 87.4 είναι η καλύτερη από όλα τα μοντέλα στη σύγκριση.
Προοπτικές
Όπως όλα τα μοντέλα AI, το Magma δεν είναι τέλειο. Αντιμετωπίζει τεχνικούς περιορισμούς σε περίπλοκες διαδικασίες απόφασης που απαιτούν πολλαπλά βήματα με την πάροδο του χρόνου. Η εταιρεία συνεχίζει να εργάζεται για τη βελτίωση αυτών των ικανοτήτων μέσω συνεχούς έρευνας. Σύντομα, η Microsoft θα δημοσιεύσει τον κώδικα εκπαίδευσης και εκτέλεσης του Magma στο GitHub, επιτρέποντας στους εξωτερικούς ερευνητές να επωφεληθούν από το έργο.
Η ανάπτυξη του Magma προσφέρει μια εγγύηση για το μέλλον των ψηφιακών βοηθών της Microsoft, δυνατόν να ξεπεράσουν περιορισμένες αλληλεπιδράσεις κειμένου και να λειτουργήσουν αυτόνομα σε λογισμικά και ρομποτικές διεργασίες.