Η ΑΙ μπορεί να δημιουργήσει ανατριχιαστικά βίντεο μόνο με μία φωτογραφία σας – Γιατί η Microsoft φοβάται να κυκλοφορήσει το εργαλείο

2 έτη ago

Η Microsoft κυκλοφόρησε ένα νέο εργαλείο AI που μπορεί να δημιουργήσει ανατριχιαστικά βίντεο ανθρώπων χρησιμοποιώντας μόνο μία φωτογραφία, αλλά δεν θα κυκλοφορήσει στην αγορά επειδή φοβάται πλαστοπροσωπίες.

Η τεχνολογία μπορεί να δημιουργήσει συγχρονισμένα κινούμενα κλιπ ενός ατόμου που μιλάει ή τραγουδάει χρησιμοποιώντας μόνο ένα στιγμιότυπο του προσώπου του και ένα ηχητικό κομμάτι. Η ερευνητική ομάδα της Ασίας του κολοσσού της τεχνολογίας αποκάλυψε το μοντέλο VASA-1 αυτή την εβδομάδα και αναφέρει ότι στο μέλλον θα μπορούσε ακόμη και να υποστηρίξει εικονικά avatar που φαίνεται να λένε ό,τι θέλει ο δημιουργός.

«Ανοίγει τον δρόμο για αλληλεπιδράσεις σε πραγματικό χρόνο με ρεαλιστικά avatar που μιμούνται ανθρώπινες συμπεριφορές συνομιλίας», αναφέρει μια συνοδευτική ερευνητική εργασία.

Το VASA – συντομογραφία του Visual Affective Skills Animator – μπορεί να αναλύσει μια στατική εικόνα μαζί με ήχο για να δημιουργήσει ένα ρεαλιστικό βίντεο με συγχρονισμό χειλιών, εκφράσεις προσώπου και κινήσεις κεφαλής.
Ωστόσο, δεν μπορεί να κλωνοποιήσει ή να προσομοιώσει φωνές.

Η εταιρεία -συνιδρυτής της οποίας είναι ο δισεκατομμυριούχος Bill Gates- ισχυρίζεται ότι το μοντέλο αποτελεί σημαντική βελτίωση σε σύγκριση με προηγούμενες μεθόδους κινούμενων σχεδίων ομιλίας όσον αφορά τον ρεαλισμό, την εκφραστικότητα και την αποδοτικότητα.

Τον Φεβρουάριο, ένα μοντέλο τεχνητής νοημοσύνης που ονομάζεται EMO: Emote Portrait Alive από την ερευνητική ομάδα του Ινστιτούτου Εξυπηρετήσεων Τεχνητής Νοημοσύνης της Alibaba χρησιμοποίησε μια παρόμοια προσέγγιση με το VASA-1 που ονομάζεται Audio2Video.

Οι ερευνητές της Microsoft εκπαίδευσαν την τεχνολογία τους στο σύνολο δεδομένων VoxCeleb2 που δημιουργήθηκε το 2018 από μια ομάδα του Πανεπιστημίου της Οξφόρδης. Αυτό το σύνολο δεδομένων ισχυρίζεται ότι περιέχει πάνω από ένα εκατομμύριο “εκφράσεις” από 6.112 διασημότητες, που λήφθηκαν από βίντεο που ανέβηκαν στο YouTube.

Σύμφωνα με πληροφορίες, το VASA-1 μπορεί να δημιουργήσει βίντεο σε ανάλυση και ρυθμό καρέ που δεν θα έδειχναν ξένα αν χρησιμοποιούνταν σε εφαρμογές πραγματικού χρόνου όπως η τηλεδιάσκεψη. Μια ερευνητική σελίδα που κυκλοφόρησε στο πλαίσιο της παρουσίασης παρουσιάζει το εργαλείο σε χρήση, με ανθρώπους να τραγουδούν και να μιλούν, καθώς και δείχνει πώς μπορεί να ελεγχθεί το μοντέλο.

Είναι χαρακτηριστικό ότι ακόμα και η Μόνα Λίζα φαίνεται να ραπάρει. Οι ερευνητές είναι κατηγορηματικοί τονίζοντας ότι η πρόθεσή τους δεν είναι να βελτιώσουν τα deepfaking με αυτό το εργαλείο.
Ο ιστότοπος αναφέρει: «Εξερευνούμε την οπτική παραγωγή αποτελεσματικών δεξιοτήτων για εικονικούς, διαδραστικούς χαρακτήρες, δεν μιμούμαστε κανένα άτομο στον πραγματικό κόσμο. Αυτό είναι μόνο μια ερευνητική επίδειξη και δεν υπάρχει σχέδιο κυκλοφορίας προϊόντος ή API»

Αντίθετα, οι ερευνητές διαφημίζουν την πιθανότητα να χρησιμοποιηθεί το συγκεκριμένο εργαλείο στην εκπαίδευση και ακόμη και για να παρέχει συντροφιά σε μοναχικούς ανθρώπους.

Ωστόσο, αρνούνται να δημοσιεύσουν τον κώδικα που τροφοδοτεί το μοντέλο. Η Microsoft δεν είναι η μόνη ομάδα που αναπτύσσει παρόμοια τεχνολογία, με αυξημένο ρεαλισμό και διαθεσιμότητα που πιθανότατα είναι μόνο θέμα χρόνου.