Λίγο πριν το ετήσιο συνέδριο MAX Sneaks στο Λος Άντζελες, η Adobe παρουσίασε ένα εντυπωσιακό νέο εργαλείο τεχνητής νοημοσύνης που μπορεί να αλλάζει τον τόνο και το συναίσθημα μιας φωνητικής αφήγησης – χωρίς να χρειάζεται νέα ηχογράφηση. Το εργαλείο ονομάζεται Corrective AI και αποτελεί ένα από τα πιο εντυπωσιακά πειραματικά πρότζεκτ της εταιρείας.
Adobe – AI: Από επίπεδη φωνή σε συναισθηματική αφήγηση μέσα σε δευτερόλεπτα
Στην παρουσίαση, οι συντάκτες του WIRED άκουσαν ένα απλό βίντεο με μονότονη φωνή αφήγησης. Στη συνέχεια, οι ερευνητές της Adobe άνοιξαν το κείμενο της αφήγησης, επισήμαναν ορισμένες φράσεις και διάλεξαν μια συναισθηματική ετικέτα από μια λίστα επιλογών: «έμπιστη», «ψιθυριστή», «ενθουσιώδης». Μέσα σε λίγα δευτερόλεπτα, η ίδια φωνή απέκτησε διαφορετική χροιά, αλλάζοντας πλήρως το ύφος του λόγου χωρίς καμία επανηχογράφηση.
Η Corrective AI δεν δημιουργεί μια νέα φωνή από την αρχή, όπως τα συστήματα παραγωγικής ομιλίας, αλλά «διορθώνει» μια υπάρχουσα ερμηνεία, προσθέτοντας ρεαλιστικά συναισθήματα και φυσικότητα.
Μια νέα εποχή για τη δημιουργική παραγωγή
Το εργαλείο αυτό αποτελεί συνέχεια των γεννητικών λειτουργιών φωνής του Firefly, που παρουσίασε η Adobe νωρίτερα φέτος. Εκεί, οι χρήστες μπορούσαν να επιλέξουν προκαθορισμένες φωνές και να προσθέσουν συναισθηματικές επισημάνσεις για να αλλάξουν τον τονισμό. Με τη Corrective AI, η δυνατότητα αυτή ενσωματώνεται πλέον σε πιο πρακτικές ροές εργασίας για δημιουργούς, podcasters και βιντεογράφους.
Ανακατασκευή και καθαρισμός ήχου με Project Clean Take
Ο δημιουργικός διευθυντής της Adobe, Lee Brimelow, έδειξε επίσης το Project Clean Take, ένα ακόμη εργαλείο τεχνητής νοημοσύνης που μπορεί να διαχωρίζει τα επιμέρους στοιχεία ενός ηχητικού αρχείου: φωνές, θόρυβο περιβάλλοντος, εφέ, μουσική. Στο demo, η AI κατάφερε να απομονώσει πλήρως τη φωνή ενός παρουσιαστή από τον ήχο μιας καμπάνας σε μια σκηνή γέφυρας – και στη συνέχεια να επαναφέρει την καμπάνα κατά βούληση, ρυθμίζοντας τα επίπεδα κάθε κομματιού χωριστά.
Ακόμη πιο εντυπωσιακό ήταν το πώς το σύστημα μπορεί να αντικαταστήσει μουσική με δικαιώματα χρήσης σε βίντεο όπου ακούγεται μουσική που προστατεύεται από πνευματικά δικαιώματα, αποφεύγοντας έτσι τα copyright strikes στις πλατφόρμες όπως το YouTube. Η AI αναγνωρίζει τη μουσική, την αντικαθιστά με παρόμοια από το Adobe Stock, και προσαρμόζει τον αντίλαλο και την ατμόσφαιρα ώστε να ταιριάζουν με το αρχικό περιβάλλον.
Αυτόματη δημιουργία ηχητικών εφέ με φυσική περιγραφή
Ένα ακόμη εργαλείο που παρουσιάστηκε, υπό την επίβλεψη του Oriol Nieto, επιτρέπει στην τεχνητή νοημοσύνη να αναλύει βίντεο και να προσθέτει αυτόματα ηχητικά εφέ. Σε ένα demo, η AI εντόπισε μια σκηνή με ένα ξυπνητήρι και δημιούργησε αυτόματα τον ήχο του. Σε άλλη σκηνή, όπου ένας χταπόδι-χαρακτήρας οδηγούσε αυτοκίνητο, η AI πρόσθεσε τον ήχο κλεισίματος της πόρτας.
Αν και σε ορισμένα σημεία τα εφέ δεν ήταν απολύτως ρεαλιστικά, η Adobe έδειξε πώς μπορούν να διορθωθούν με μια απλή φωνητική εντολή, χρησιμοποιώντας μια διεπαφή τύπου ChatGPT. Ο δημιουργός απλώς ζητούσε από την AI να προσθέσει, για παράδειγμα, ήχο αυτοκινήτου σε μια σκηνή – και το σύστημα το έκανε αυτόματα.
Η τεχνητή νοημοσύνη αλλάζει τη βιομηχανία ήχου και εικόνας
Αν και οι λειτουργίες αυτές είναι ακόμη σε πειραματικό στάδιο, η ιστορία έχει δείξει ότι τα εργαλεία που παρουσιάζονται στο MAX Sneaks ενσωματώνονται σύντομα στις εμπορικές εφαρμογές της Adobe. Το Harmonize, για παράδειγμα, παρουσιάστηκε πέρσι και τώρα είναι πλήρως ενσωματωμένο στο Photoshop.
Η ανακοίνωση της Adobe έρχεται λίγους μήνες μετά τη λήξη της απεργίας των ηθοποιών φωνής στα videogames, οι οποίοι διεκδίκησαν νομική προστασία έναντι της τεχνητής νοημοσύνης. Σύμφωνα με τη νέα συμφωνία, οι εταιρείες οφείλουν να ζητούν συναίνεση και διαφάνεια όταν χρησιμοποιούν AI για την αναπαραγωγή φωνής ή μορφής ενός ηθοποιού.
Αν και η Corrective AI δε δημιουργεί φωνές από το μηδέν, αποτελεί σαφή ένδειξη της ριζικής αλλαγής που φέρνει η τεχνητή νοημοσύνη στη δημιουργική βιομηχανία, μεταμορφώνοντας τον τρόπο με τον οποίο παράγεται, διορθώνεται και συναισθηματικά αποδίδεται ο ήχος.