Το νέο μοντέλο AI της Google χρησιμοποιεί broswer όπως εσείς

Gemini

Η Google παρουσίασε ένα νέο μοντέλο τεχνητής νοημοσύνης Gemini σχεδιασμένο να περιηγείται και να αλληλεπιδρά με τον ιστό μέσω browser, επιτρέποντας σε πράκτορες AI να εκτελούν ενέργειες μέσα σε διεπαφές που έχουν σχεδιαστεί για χρήση από ανθρώπους και όχι από ρομπότ.

Το μοντέλο, με την ονομασία Gemini 2.5 Computer Use, χρησιμοποιεί «οπτική κατανόηση και ικανότητες συλλογιστικής» για να αναλύσει ένα αίτημα του χρήστη και να εκτελέσει μια εργασία, όπως η συμπλήρωση και υποβολή μιας φόρμας.

Χρήσεις και παραδείγματα

Μπορεί να χρησιμοποιηθεί για δοκιμές διεπαφών χρήστη (UI testing) ή για περιήγηση σε interfaces που δεν έχουν API ή άλλη απευθείας σύνδεση διαθέσιμη. Άλλες εκδόσεις του μοντέλου έχουν χρησιμοποιηθεί για λειτουργίες agentic στο AI Mode και το Project Mariner, ένα ερευνητικό πρωτότυπο που επιτρέπει σε AI agents να εκτελούν εργασίες αυτόνομα μέσα σε browser, όπως το να προσθέτουν προϊόντα στο καλάθι βάσει μιας λίστας συστατικών.

Η απάντηση της Google στον ανταγωνισμό

Η ανακοίνωση της Google έρχεται μόλις μία ημέρα μετά την αποκάλυψη νέων εφαρμογών για το ChatGPT από την OpenAI, στο ετήσιο Dev Day της. Η OpenAI συνεχίζει να επικεντρώνεται στη δυνατότητα ChatGPT Agent που μπορεί να ολοκληρώνει σύνθετες εργασίες εκ μέρους του χρήστη. Παράλληλα, η Anthropic είχε ήδη κυκλοφορήσει πέρυσι μια έκδοση του Claude AI με δυνατότητες «χρήσης υπολογιστή».

Επιδόσεις και περιορισμοί

Η Google δημοσίευσε βίντεο επίδειξης που δείχνουν το εργαλείο να λειτουργεί σε πραγματικό χρόνο – αν και τα βίντεο είναι επιταχυνόμενα κατά 3x. Σύμφωνα με τη Google, το μοντέλο «ξεπερνά τις κορυφαίες εναλλακτικές σε πολλαπλά benchmarks για web και mobile».

Σε αντίθεση με τα εργαλεία της OpenAI και της Anthropic, το νέο AI της Google έχει πρόσβαση μόνο σε browser – όχι σε ολόκληρο περιβάλλον λειτουργικού συστήματος υπολογιστή. Η εταιρεία σημειώνει ότι «δεν είναι ακόμη βελτιστοποιημένο για έλεγχο σε επίπεδο desktop OS» και προς το παρόν υποστηρίζει 13 ενέργειες, όπως το άνοιγμα φυλλομετρητή, η πληκτρολόγηση κειμένου, καθώς και η λειτουργία drag and drop.

Διαθεσιμότητα

Το Gemini 2.5 Computer Use είναι διαθέσιμο για προγραμματιστές μέσω του Google AI Studio και του Vertex AI, αλλά υπάρχει επίσης και demo στο Browserbase, όπου μπορεί κανείς να το παρακολουθήσει να εκτελεί εργασίες, όπως «Παίξε το παιχνίδι 2048» ή «Περιηγήσου στο Hacker News για trending συζητήσεις».

Scroll to Top