Nova Sonic: Η Amazon αποκάλυψε το νέο φωνητικό AI μοντέλο της – Όλα όσα πρέπει να γνωρίζετε

Amazon, Nova Sonic, AI

Την Τρίτη, η Amazon παρουσίασε το νέο παραγωγικό AI μοντέλο της, ονόματι «Nova Sonic», το οποίο είναι ικανό να επεξεργάζεται και να δημιουργεί φυσικό ήχο φωνής. Η Amazon υποστηρίζει ότι η απόδοση του Nova Sonic είναι ανταγωνιστική με τα κορυφαία μοντέλα φωνής από τις OpenAI και Google, σύμφωνα με μετρήσεις που αφορούν την ταχύτητα, την αναγνώριση φωνής και την ποιότητα συνομιλιών.

Η απάντηση της Amazon στα νέα μοντέλα φωνής AI

Το Nova Sonic είναι η απάντηση της Amazon σε νέες τεχνολογίες φωνής AI, όπως το μοντέλο που χρησιμοποιεί η λειτουργία Voice Mode του ChatGPT, το οποίο φαίνεται πιο φυσικό στη συνομιλία σε σχέση με τα πιο άκαμπτα μοντέλα των πρώτων ημερών της Alexa. Οι τελευταίες τεχνολογικές εξελίξεις έχουν καταστήσει τα παραδοσιακά μοντέλα, όπως η Alexa και η Siri της Apple, να φαίνονται ιδιαίτερα «στεγνά» σε σύγκριση.

Διαθεσιμότητα και δυνατότητες του Nova Sonic

Το Nova Sonic είναι διαθέσιμο μέσω της πλατφόρμας ανάπτυξης της Amazon, Bedrock. Σύμφωνα με την ανακοίνωση της Amazon, το Nova Sonic είναι το πιο οικονομικό μοντέλο φωνής AI στην αγορά, με κόστος 80% χαμηλότερο από το GPT-4o της OpenAI.

Μερικά από τα συστατικά του Nova Sonic ήδη τροφοδοτούν την Alexa+, την αναβαθμισμένη φωνητική βοηθό της Amazon, σύμφωνα με τον Αντιπρόεδρο και Επικεφαλής Επιστήμονα AGI, Rohit Prasad.

Η εξειδίκευση της Amazon στην «οργάνωση μεγάλων συστημάτων»

Ο Prasad ανέφερε σε συνέντευξή του ότι το Nova Sonic βασίζεται στην τεχνογνωσία της Amazon σε «μεγάλες συστημικές οργανώσεις», δηλαδή την τεχνική υποδομή που υποστηρίζει την Alexa.

Συγκριτικά με ανταγωνιστικά μοντέλα AI φωνής, το Nova Sonic υπερέχει στην κατεύθυνση των αιτημάτων των χρηστών προς διαφορετικά APIs. Αυτή η ικανότητα επιτρέπει στο Nova Sonic να «γνωρίζει» πότε χρειάζεται να ανακτήσει πληροφορίες σε πραγματικό χρόνο από το διαδίκτυο, να αναλύσει μια ιδιόκτητη πηγή δεδομένων ή να πραγματοποιήσει ενέργειες σε μια εξωτερική εφαρμογή.

Βελτιωμένη αναγνώριση και ταχύτητα στο Nova Sonic

Σύμφωνα με την Amazon, το Nova Sonic είναι λιγότερο επιρρεπές σε λάθη αναγνώρισης φωνής σε σχέση με άλλα μοντέλα AI, επιτρέποντάς του να κατανοεί καλύτερα την πρόθεση του χρήστη ακόμα και αν αυτός μουρμουράει, κάνει λάθη ή βρίσκεται σε θορυβώδη περιβάλλοντα.

Στην αξιολόγηση αναγνώρισης φωνής Multilingual LibriSpeech, το Nova Sonic πέτυχε ποσοστό σφάλματος λέξεων (WER) μόλις 4.2% κατά μέσο όρο σε αγγλικά, γαλλικά, ιταλικά, γερμανικά και ισπανικά.

Σε μια άλλη αξιολόγηση που μετράει τις δυναμικές αλληλεπιδράσεις με πολλούς συμμετέχοντες, το Nova Sonic υπήρξε 46.7% πιο ακριβές σε σχέση με το μοντέλο GPT-4o-transcribe της OpenAI όσον αφορά το WER. Επίσης, το Nova Sonic έχει εξαιρετική ταχύτητα, με μέση καθυστερημένη αντίδραση 1.09 δευτερολέπτων, σύμφωνα με την Amazon, κάνοντάς το ταχύτερο από το GPT-4o που τροφοδοτεί το Realtime API της OpenAI (1.18 δευτερόλεπτα).

Ο στρατηγικός στόχος της Amazon για την τεχνητή παραγωγική νοημοσύνη (AGI)

Ο Prasad εξήγησε ότι το Nova Sonic αποτελεί μέρος της ευρύτερης στρατηγικής της Amazon για την ανάπτυξη της AGI (τεχνητής παραγωγικής νοημοσύνης), την οποία η εταιρεία ορίζει ως «AI συστήματα που μπορούν να κάνουν οτιδήποτε μπορεί να κάνει ένας άνθρωπος σε έναν υπολογιστή». Στο μέλλον, η Amazon σκοπεύει να κυκλοφορήσει περισσότερα μοντέλα AI που θα μπορούν να κατανοούν διαφορετικές μορφές δεδομένων, όπως εικόνες, βίντεο, φωνή, καθώς και άλλες αισθητηριακές πληροφορίες που σχετίζονται με τον φυσικό κόσμο.

Η διαίρεση AGI της Amazon, την οποία διευθύνει ο Prasad, φαίνεται να παίζει ολοένα και μεγαλύτερο ρόλο στη στρατηγική προϊόντων της εταιρείας. Μόλις την περασμένη εβδομάδα, η Amazon παρουσίασε την πρόταση Nova Act, ένα μοντέλο AI που χρησιμοποιεί τον περιηγητή και φαίνεται να τροφοδοτεί στοιχεία της Alexa+ και της δυνατότητας «Buy for Me» της Amazon.

Σύμφωνα με τον Prasad, η Amazon σκοπεύει να προσφέρει περισσότερα από τα εσωτερικά της μοντέλα AI για να τα αξιοποιήσουν οι προγραμματιστές.

Scroll to Top