Η OpenAI ανακοίνωσε την Πέμπτη την εισαγωγή μιας σειράς νέων εργαλείων φωνητικής νοημοσύνης στο API της, με στόχο να βοηθήσει τους προγραμματιστές να δημιουργήσουν εφαρμογές που μπορούν να συνομιλούν, να μεταγράφουν και να μεταφράζουν σε πραγματικό χρόνο. Οι νέες προσθήκες σηματοδοτούν τη μετάβαση από τις απλές φωνητικές εντολές σε διεπαφές που μπορούν να κατανοούν σύνθετα αιτήματα και να αναλαμβάνουν δράση κατά τη διάρκεια μιας συζήτησης.
OpenAI: Το μοντέλο GPT-Realtime-2 και η λογική επιπέδου GPT-5
Κεντρικό στοιχείο της αναβάθμισης είναι το GPT-Realtime-2, ένα νέο φωνητικό μοντέλο που έχει σχεδιαστεί για ρεαλιστικές προσομοιώσεις ομιλίας. Σε αντίθεση με τον προκάτοχό του, το νέο μοντέλο βασίζεται σε ικανότητες συλλογιστικής επιπέδου GPT-5, γεγονός που του επιτρέπει να διαχειρίζεται πολύ πιο περίπλοκα αιτήματα χρηστών. Η OpenAI υποστηρίζει ότι η εξέλιξη αυτή επιτρέπει στις φωνητικές διεπαφές όχι απλώς να απαντούν, αλλά να «σκέφτονται» και να δρουν καθώς εξελίσσεται η αλληλεπίδραση.
Μετάφραση και μεταγραφή σε πραγματικό χρόνο
Παράλληλα, η εταιρεία παρουσίασε το GPT-Realtime-Translate και το GPT-Realtime-Whisper. Το πρώτο προσφέρει υπηρεσίες μετάφρασης που συμβαδίζουν με τον φυσικό ρυθμό της ομιλίας, υποστηρίζοντας περισσότερες από 70 γλώσσες εισόδου και 13 γλώσσες εξόδου.
Το δεύτερο παρέχει δυνατότητες ζωντανής μετατροπής λόγου σε κείμενο, επιτρέποντας την άμεση καταγραφή των συνομιλιών τη στιγμή που συμβαίνουν. Αυτά τα εργαλεία απευθύνονται κυρίως σε τομείς όπως η εξυπηρέτηση πελατών, η εκπαίδευση, τα μέσα ενημέρωσης και οι πλατφόρμες δημιουργών.
Ασφάλεια και περιορισμοί κατά της κατάχρησης
Αναγνωρίζοντας τους κινδύνους κακής χρήσης της τεχνολογίας φωνητικής προσομοίωσης, η OpenAI ενσωμάτωσε προστατευτικές δικλείδες στο σύστημα. Υπάρχουν ειδικοί μηχανισμοί ανίχνευσης που μπορούν να διακόψουν αυτόματα μια συνομιλία εάν διαπιστωθεί παραβίαση των οδηγιών για επιβλαβές περιεχόμενο, όπως η δημιουργία spam ή η απόπειρα απάτης. Στόχος είναι η αποτροπή της χρήσης των εργαλείων για τη δημιουργία παραπλανητικού ή κακόβουλου περιεχομένου στο διαδίκτυο.
Μοντέλο χρέωσης και διαθεσιμότητα
Όλα τα νέα μοντέλα είναι πλέον διαθέσιμα μέσω του Realtime API της OpenAI. Η δομή της τιμολόγησης διαφοροποιείται ανάλογα με την υπηρεσία: οι λειτουργίες μετάφρασης (Translate) και μεταγραφής (Whisper) χρεώνονται με το λεπτό χρήσης, ενώ η χρήση του μοντέλου GPT-Realtime-2 υπολογίζεται με βάση την κατανάλωση tokens, προσφέροντας ευελιξία στους προγραμματιστές ανάλογα με τις ανάγκες των εφαρμογών τους.