Η γαλλική εταιρεία τεχνητής νοημοσύνης Mistral κυκλοφόρησε την Πέμπτη ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία ανοιχτού κώδικα, το οποίο προορίζεται για φωνητικούς βοηθούς AI ή εταιρικές χρήσεις, όπως η υποστήριξη πελατών. Το μοντέλο επιτρέπει στις επιχειρήσεις να δημιουργούν φωνητικούς πράκτορες για πωλήσεις και αλληλεπίδραση με τους πελάτες, τοποθετώντας τη Mistral σε άμεσο ανταγωνισμό με εταιρείες όπως η ElevenLabs, η Deepgram και η OpenAI.
Mistral AI: Τεχνικά χαρακτηριστικά και γλωσσική υποστήριξη
Το νέο μοντέλο, με την ονομασία Voxtral TTS, υποστηρίζει εννέα γλώσσες, συμπεριλαμβανομένων των Αγγλικών, Γαλλικών, Γερμανικών, Ισπανικών, Ολλανδικών, Πορτογαλικών, Ιταλικών, Χίντι και Αραβικών. Σύμφωνα με τον Pierre Stock, αντιπρόεδρο επιστημονικών λειτουργιών της Mistral AI, το μοντέλο είναι μικρού μεγέθους ώστε να μπορεί να λειτουργήσει σε smartwatch, smartphone, φορητούς υπολογιστές ή άλλες συσκευές άκρου. Το κόστος του αποτελεί ένα κλάσμα των υπολοίπων προτάσεων της αγοράς, προσφέροντας παράλληλα κορυφαία απόδοση.
Προσαρμογή φωνής και ταχύτητα πραγματικού χρόνου
Η Mistral ανέφερε ότι το νέο μοντέλο μπορεί να προσαρμόσει μια προσαρμοσμένη φωνή με δείγμα λιγότερο των πέντε δευτερολέπτων, αποτυπώνοντας λεπτές προφορές, διακυμάνσεις και τονισμούς. Το μοντέλο, που βασίζεται στο Ministral 3B, μπορεί να αλλάζει γλώσσες εύκολα χωρίς να χάνει τα χαρακτηριστικά της φωνής, κάτι που είναι χρήσιμο για μεταγλώττιση ή μετάφραση σε πραγματικό χρόνο. Στόχος της εταιρείας ήταν το αποτέλεσμα να ακούγεται ανθρώπινο και όχι ρομποτικό.
Όσον αφορά την απόδοση, το Voxtral TTS έχει σχεδιαστεί για λειτουργία σε πραγματικό χρόνο. Ο χρόνος μέχρι την πρώτη ηχητική απόκριση (TTFA) ανέρχεται στα 90ms για ένα δείγμα 10 δευτερολέπτων. Επιπλέον, διαθέτει παράγοντα πραγματικού χρόνου (RTF) 6x, που σημαίνει ότι μπορεί να αποδώσει ένα κλιπ 10 δευτερολέπτων σε περίπου 1,6 δευτερόλεπτα.
Το όραμα για μια πολυτροπική πλατφόρμα
Με την προσθήκη αυτού του μοντέλου, η Mistral στοχεύει να παρέχει μια πλήρη σουίτα φωνητικών προϊόντων στις επιχειρήσεις. Η εταιρεία σχεδιάζει μια πλατφόρμα που θα μπορεί να χειρίζεται πολυτροπικές ροές εισόδου, συμπεριλαμβανομένου ήχου, κειμένου και εικόνας. Η στρατηγική τοποθέτηση της Mistral βασίζεται στον ανοιχτό κώδικα και τη δυνατότητα προσαρμογής, βοηθώντας τις επιχειρήσεις να υιοθετήσουν τα μοντέλα της έναντι των ανταγωνιστών, καθώς μπορούν να τα ρυθμίσουν ακριβώς όπως επιθυμούν.