Κλωνοποίησα τη φωνή μου και η μητέρα μου δεν μπορούσε να πει τη διαφορά

Κλωνοποίησα τη φωνή μου και η μητέρα μου δεν μπορούσε να πει τη διαφορά

Αυτό το άρθρο είναι από Κατανόηση AIένα ενημερωτικό δελτίο που διερευνά πώς λειτουργεί η τεχνητή νοημοσύνη και πώς αλλάζει τον κόσμο μας.

Πριν από μερικές εβδομάδες, χρησιμοποίησα λογισμικό AI για να κλωνοποιήσω τη φωνή μου. Ο ήχος που προέκυψε μου φάνηκε αρκετά πειστικός, αλλά ήθελα να δω τι σκέφτονται οι άλλοι.

Έτσι δημιούργησα ένα δοκιμαστικό αρχείο ήχου με βάση τις πρώτες 12 παραγράφους αυτού του άρθρου που έγραψα. Επτά τυχαία επιλεγμένες παράγραφοι ήταν η πραγματική μου φωνή, ενώ οι άλλες πέντε δημιουργήθηκαν από την τεχνητή νοημοσύνη. Ζήτησα από τα μέλη της οικογένειάς μου να δω αν μπορούσαν να πουν τη διαφορά.

Η μητέρα μου ήταν μπερδεμένη. Όλες οι παράγραφοι ακούγονταν σαν εσάς, μου είπε μετά. Νόμιζε ότι είχε εντοπίσει ενδεικτικά σημάδια του ήχου που δημιουργήθηκε από υπολογιστή. Αλλά έκανε λάθος πιο συχνά παρά είχε δίκιο, προσδιορίζοντας σωστά μόνο πέντε από τις 12 παραγράφους.

Άλλα μέλη της οικογένειάς μου είχαν καλύτερη τύχη. Η γυναίκα, η αδερφή, ο αδερφός και η πεθερά μου πήραν σωστά και τις 12 παραγράφους. Ο πατέρας μου πήγε 10 στα 12.

Οταν εγώ άνοιξε το πείραμα στο ευρύτερο διαδίκτυο (μπορείτε να δοκιμάσετε την τύχη σας εδώ), τα αποτελέσματα δεν ήταν υπέροχα για τον εγωισμό μου.

Οι πραγματικές φωνές είχαν πολύ περισσότερο πλούτο και συναισθηματικό άρωμα, έγραψε ένας ανώνυμος συμμετέχων. Οι φωνές της τεχνητής νοημοσύνης ακούγονταν σαν ένα άτομο που έχει κρυώσει. Τουλάχιστον ελπίζω ότι αυτό είναι σωστό και δεν προσβάλλω την πραγματική φωνή σας! Δεν σε γνώρισα ποτέ προσωπικά.

Δυστυχώς, αυτό το άτομο μάντεψε λάθος για κάθε παράγραφο: αυτός ο μούχλας με κρυολόγημα ήμουν εγώ. Ένας άλλος ακροατής μηδέν για 12 έγραψε ότι η φωνή AI (στην πραγματικότητα η φωνή μου) στερείται παραλλαγών στη χροιά και τον ρυθμό.

Ένας φίλος από το σχολείο, τον οποίο δεν έχω δει εδώ και χρόνια, μάντεψε λάθος 11 στις 12 φορές. Ένας πρώην υπάλληλος έκανε λάθος 10 στις 12 φορές.

Συνολικά, οι άνθρωποι που δεν με ήξεραν καλά, μετά βίας τα πήγαν καλύτερα από το χτύπημα του νομίσματος, μαντεύοντας σωστά μόνο το 54 τοις εκατό των περιπτώσεων. Ακολουθούν τα αποτελέσματα, με τους ομιλητές που έχουν προσδιοριστεί, για να ακούσετε τον εαυτό σας:

Έτσι, η κλωνοποιημένη φωνή μου δεν ήταν τέλεια, αλλά ήταν εξαιρετικά καλή. Και η δημιουργία του ήταν εκπληκτικά φθηνή και εύκολη.

Η κλωνοποίηση φωνής έχει βελτιωθεί πολύ σε τρία χρόνια

Το 2020, ερευνητές στο MIT συνεργάστηκαν με μια εταιρεία που ονομάζεται Respeecher για να δημιουργήσουν ένα ψεύτικο βίντεο του Ρίτσαρντ Νίξον που ανακοινώνει την αποτυχία της προσγείωσης του Apollo 11 στο φεγγάρι. Ένα βίντεο από τα παρασκήνια δείχνει την επίπονη διαδικασία που απαιτείται για την κλωνοποίηση της φωνής του Nixons. Οι ερευνητές του MIT συγκέντρωσαν εκατοντάδες σύντομα κλιπ της φωνής του Nixons και στη συνέχεια έβαλαν έναν ηθοποιό να ηχογραφεί τον εαυτό του να λέει τα ίδια λόγια. Στη συνέχεια, ο ηθοποιός διάβασε την εναλλακτική ομιλία για προσγείωση του Nixons και το λογισμικό τροποποίησε τα λόγια του ώστε να ακούγονται σαν Nixons.

Αυτή η διαδικασία φαίνεται να αποφέρει εξαιρετικά αποτελέσματα: Πέρυσι, ο Respeecher κέρδισε ένα συμβόλαιο για να κλωνοποιήσει τη φωνή του James Earl Jones ως Darth Vader στο μέλλον Πόλεμος των άστρων έργα. Αλλά έχει υψηλό κόστος. Όταν επικοινώνησα πρόσφατα με τον Respeecher για να δοκιμάσω την υπηρεσία του, με πληροφόρησαν ότι ένα έργο διαρκεί συνήθως αρκετές εβδομάδες με χρεώσεις από 4-ψήφιο έως 6-ψήφιο σε USD.

Δεν είχα χιλιάδες δολάρια να ξοδέψω, οπότε πήγα με μια ελάχιστα γνωστή startup που ονομάζεται Play.ht. Το μόνο που έπρεπε να κάνω ήταν να ανεβάσω ένα βίντεο 30 λεπτών με το να διαβάζω κείμενο της επιλογής μου και μετά να περιμένω μερικές ώρες.

Το Play.ht είναι μια υπηρεσία μετατροπής κειμένου σε ομιλία, επομένως δεν χρειάστηκε να προσλάβω έναν ηθοποιό φωνής. Μόλις είχε εκπαιδευτεί στη φωνή μου, το λογισμικό θα μπορούσε να δημιουργήσει ρεαλιστική ανθρώπινη ομιλία από γραπτό κείμενο μέσα σε λίγα μόνο λεπτά. Το καλύτερο από όλα, δεν χρειάστηκε να πληρώσω δεκάρα. Κατάφερα να κλωνοποιήσω τη φωνή μου χρησιμοποιώντας το δωρεάν πρόγραμμα Play.hts. Τα εμπορικά σχέδια ξεκινούν από 39 $ το μήνα.

Τα ρεαλιστικά συστήματα μετατροπής κειμένου σε ομιλία όπως το Play.ht είναι δύσκολο να κατασκευαστούν επειδή τα ανθρώπινα όντα προφέρουν την ίδια λέξη διαφορετικά ανάλογα με το περιβάλλον. Αυτό το κάνουμε ανάλογα με το τι εμφανίζεται πριν ή μετά από μια λέξη σε μια πρόταση και ακολουθούμε πολύπλοκους, και σε μεγάλο βαθμό υποσυνείδητους, κανόνες σχετικά με το ποιες λέξεις σε μια πρόταση πρέπει να τονίσουμε.

Υπάρχει επίσης κάποια εντελώς τυχαία παραλλαγή στον τρόπο με τον οποίο τα ανθρώπινα όντα προφέρουν τις λέξεις. Μερικές φορές σταματάμε και παίρνουμε μια ανάσα, σταματάμε για να σκεφτούμε τι λέγαμε ή απλώς αποσπώνουμε την προσοχή μας. Έτσι, κάθε σύστημα που προφέρει πάντα λέξεις ή φράσεις με τον ίδιο ακριβώς τρόπο θα ακούγεται κάπως ρομποτικό.

Ένα σύστημα φωνής με φωνή όπως το Respeecher δεν χρειάζεται να ανησυχεί τόσο για αυτά τα ζητήματα, επειδή μπορεί να ακολουθήσει το παράδειγμα του φωνητικού ηθοποιού που παρείχε τον ήχο πηγής. Σε ένα σύστημα μετατροπής κειμένου σε ομιλία, αντίθετα, το σύστημα τεχνητής νοημοσύνης πρέπει να κατανοεί την ανθρώπινη ομιλία αρκετά καλά ώστε να γνωρίζει πόσο καιρό πρέπει να κάνει παύση, ποιες λέξεις να τονίσει και ούτω καθεξής.

Η Play.ht λέει ότι το σύστημά της χρησιμοποιεί έναν μετασχηματιστή, έναν τύπο νευρωνικού δικτύου που εφευρέθηκε στην Google το 2017 και έχει γίνει το θεμέλιο πολλών συστημάτων τεχνητής νοημοσύνης που δημιουργούνται από τότε. (Το T στο GPT, η οικογένεια μεγάλων γλωσσικών μοντέλων OpenAIs, σημαίνει μετασχηματιστής.)

Αυτό που κάνει ένα μοντέλο μετασχηματιστή ισχυρό είναι η ικανότητά του να δίνει προσοχή σε πολλά μέρη της εισόδου του ταυτόχρονα. Όταν το μοντέλο Play.hts δημιουργεί τον ήχο για μια νέα λέξη, δεν σκέφτεται απλώς την τρέχουσα λέξη ή αυτή που προηγήθηκε, αλλά λαμβάνει υπόψη τη δομή της πρότασης στο σύνολό της. Αυτό του επιτρέπει να μεταβάλλει την ταχύτητα, την έμφαση και άλλα χαρακτηριστικά της ομιλίας με τρόπο που αντικατοπτρίζει τα μοτίβα ομιλίας του ατόμου του οποίου η φωνή κλωνοποιείται.

The Problem of Textual content-to-Speech Voice Cloning

Το Play.ht έχει σχεδιαστεί για δημιουργικούς επαγγελματίες που δημιουργούν podcast, ηχητικά βιβλία, εκπαιδευτικά βίντεο, τηλεοπτικές διαφημίσεις κ.λπ. Η εκκίνηση είναι στην πραγματικότητα λίγο αουτσάιντερ σε αυτήν την αγορά, καθώς ανταγωνίζεται ένα εξελιγμένο εργαλείο επεξεργασίας ήχου που ονομάζεται Descript.

Η αρχική έκδοση του Descript, που κυκλοφόρησε το 2017, δημιούργησε αυτόματα μια μεταγραφή από ένα αρχείο ήχου. Θα μπορούσατε να διαγράψετε λέξεις από τη μεταγραφή και το Descript θα διαγράψει αυτόματα το αντίστοιχο τμήμα του αρχείου ήχου.

Το 2019, η Descript απέκτησε μια startup κλωνοποίησης φωνής που ονομάζεται Lyrebird και ενσωμάτωσε την τεχνολογία της στο Descript. Ως αποτέλεσμα, από το 2020 ήταν επίσης δυνατό Προσθήκη λέξεις σε μια μεταγραφή και βάλτε το Descript να δημιουργήσει ρεαλιστικό ήχο της φωνής σας που λέει αυτές τις λέξεις και χαρακτηριστικό Περιγραφή κλήσεων Overdub. Όπως το Play.ht, το Overdub πρέπει να εκπαιδευτεί χρησιμοποιώντας ένα μεγάλο δείγμα ήχου της φωνής-στόχου.

Για να δοκιμάσω το Overdub, δημιούργησα ένα άλλο αρχείο ήχου 12 παραγράφων χρησιμοποιώντας το Descript και προκάλεσα την οικογένεια και τους φίλους να πουν ποιες παράγραφοι ήταν η πραγματική μου φωνή και ποιες δημιουργήθηκαν από το Overdub. Αυτό απείχε πολύ από ένα αυστηρό επιστημονικό πείραμα, αλλά συνολικά φαινόταν ότι η κλωνοποιημένη φωνή που παρήχθη από το Play.ht ήταν λίγο πιο πειστική από αυτή που δημιουργήθηκε από την τεχνολογία Descripts Overdub. Μπορείτε να συγκρίνετε την έξοδο Overdubs με την πραγματική μου φωνή εδώ:

Αυτό μπορεί να μην έχει μεγάλη σημασία στην πράξη επειδή τα δύο προϊόντα έχουν σχεδιαστεί για ελαφρώς διαφορετικές περιπτώσεις χρήσης. Το Play.ht είναι βελτιστοποιημένο για τη δημιουργία μεγάλων αρχείων ήχου από την αρχή, για παράδειγμα, ένα πλήρες βιβλίο ήχου. Αντίθετα, το Overdub έχει σχεδιαστεί για να προσθέτει σύντομες φράσεις σε ένα υπάρχον αρχείο ήχου. Είναι πολύ πιο δύσκολο να ανιχνεύσετε μια συνθετική φωνή σε σύντομα κλιπ ήχου, επομένως υποψιάζομαι ότι οι φωνές Overdubs είναι αρκετά ρεαλιστικές για αυτήν την εφαρμογή.

Και η Descript χρησιμοποιεί την τεχνολογία AI για να βελτιώσει τον ήχο με άλλους τρόπους. Ένα χαρακτηριστικό που ονομάζεται Studio Sound, για παράδειγμα, παίρνει κανονικό ήχο, ίσως παράγεται χρησιμοποιώντας ένα μικρόφωνο χαμηλής ποιότητας σε ένα θορυβώδες δωμάτιο και χρησιμοποιεί AI για να ακούγεται σαν να έχει ηχογραφηθεί σε στούντιο. Δεν αφαιρεί απλώς τον θόρυβο του περιβάλλοντος, αλλά αλλάζει διακριτικά τη φωνή των ηχείων, ώστε να ακούγεται σαν να έχει εγγραφεί με καλύτερο μικρόφωνο.

Το Descript μπορεί επίσης να βοηθήσει προς την αντίθετη κατεύθυνση: Εάν προσθέσετε ένα νέο κλιπ ήχου σε μια υπάρχουσα εγγραφή, το Descript μπορεί να προσθέσει διακριτικό θόρυβο φόντου για να βεβαιωθεί ότι το νέο κλιπ έχει τον ίδιο τόνο δωματίου με τον περιβάλλοντα ήχο.

Εργαλεία όπως αυτό είναι ένα όφελος για τους ανεξάρτητους δημιουργικούς επαγγελματίες, επειδή εξαλείφουν μεγάλο μέρος της κουραστικής εργασίας μετά την παραγωγή που απαιτείται για τη δημοσίευση περιεχομένου ήχου υψηλής ποιότητας. Αλλά θα μπορούσαν επίσης να είναι ευλογία για τους εγκληματίες και άλλους ταραχοποιούς.

The Darkish Facet of Voice Cloning

Τον περασμένο μήνα η Washington Submit ανέφερε για μια Καναδή γιαγιά που ξεγελάστηκε από απατεώνες χρησιμοποιώντας τεχνολογία κλωνοποίησης φωνής. Ένας άντρας που ακουγόταν ακριβώς όπως ο εγγονός της ο Μπράντον τηλεφώνησε για να πει ότι ήταν στη φυλακή και χρειαζόταν χρήματα.

Σύμφωνα με την Submit, η γυναίκα και ο σύζυγός της έτρεξαν στην τράπεζά τους στη Ρετζίνα του Σασκάτσουαν και απέσπασαν 3.000 δολάρια Καναδά (2.207 δολάρια σε αμερικανικό νόμισμα), το ημερήσιο μέγιστο. Έσπευσαν σε δεύτερο υποκατάστημα για περισσότερα χρήματα.

Ευτυχώς, ένας διευθυντής στο δεύτερο υποκατάστημα τους προειδοποίησε ότι η κλήση ήταν πιθανότατα απάτη. Δεν έστειλαν τα χρήματα και ο Μπράντον αποδείχθηκε ότι ήταν καλά. Αλλά απάτες όπως αυτή πρόκειται να γίνουν πιο κοινές τα επόμενα χρόνια.

Τους τελευταίους μήνες παρατηρήθηκε επίσης πολλαπλασιασμός ψεύτικου ήχου διάφορων διασημοτήτων, από τον Τζο Μπάιντεν έως τον Τέιλορ Σουίφτ, που λένε διάφορα αστεία και μερικές φορές προσβλητικά πράγματα. Ενώ τα περισσότερα από αυτά τα κλιπ είναι αβλαβή, η τάση ανησυχεί τον Duncan Crabtree-Eire, τον εκτελεστικό διευθυντή του SAG-AFTRA, ενός σωματείου που εκπροσωπεί ένα ευρύ φάσμα ερμηνευτών, από ηθοποιούς μέχρι τραγουδιστές και δημοσιογράφους. Ανησυχεί για τους ανθρώπους που χρησιμοποιούν κλωνοποίηση φωνής για να δημιουργήσουν ψεύτικες εγκρίσεις διασημοτήτων, εξαπατώντας τους πελάτες και στερώντας τα μέλη του από τα έσοδα που δικαιούνται.

Είναι εύκολο να φανταστεί κανείς ότι ο ψεύτικος ήχος προκαλεί πιο σοβαρές βλάβες. Η κλωνοποίηση φωνής θα μπορούσε να χρησιμοποιηθεί για να ταπεινώσει διασημότητες (ή μη διασημότητες για αυτό το θέμα) με ψεύτικα, σεξουαλικά ρητά ηχητικά κλιπ. Οι πολιτικοί πράκτορες θα μπορούσαν να χρησιμοποιήσουν ψεύτικο ήχο για να ξεγελάσουν τους ψηφοφόρους τις τελευταίες ημέρες των εκλογών. Φανταστείτε κάποιον να διαρρέει ψεύτικο ήχο ενός πολιτικού υποψηφίου να λέει κάτι ενοχλητικό ή να κυκλοφορεί μια ψεύτικη ραδιοφωνική ή τηλεοπτική εκπομπή στα μέσα κοινωνικής δικτύωσης.

Οι ηγέτες των Play.ht και Descript έχουν πλήρη επίγνωση αυτών των κινδύνων. Ο Διευθύνων Σύμβουλος του Play.ht, Hammad Syed, μου είπε ότι η εταιρεία έχει θέσει αρκετές διασφαλίσεις, συμπεριλαμβανομένης της μη αυτόματης εξέτασης του ήχου εκπαίδευσης και του αυτόματου εντοπισμού προσπαθειών δημιουργίας ρατσιστικού ή σεξουαλικού ήχου.

Το Descript κάνει ένα επιπλέον βήμα για να διασφαλίσει ότι οι χρήστες δεν κλωνοποιούν τη φωνή κάποιου άλλου χωρίς άδεια. Όταν κάποιος προσπαθεί να δημιουργήσει μια νέα φωνή Overdub, το λογισμικό ζητά από τον κάτοχο της φωνής να διαβάσει μια σύντομη δήλωση στο μικρόφωνο που δηλώνει ότι συμφωνεί να κλωνοποιηθεί η φωνή του. Η περιγραφή ελέγχει για να βεβαιωθεί ότι η φωνή που καταγράφεται από το μικρόφωνο ταιριάζει με τη φωνή στο αρχείο ήχου που χρησιμοποιείται για προπόνηση. Αυτό θα δυσκολέψει οποιονδήποτε να χρησιμοποιήσει το Overdub για απάτες πλαστοπροσωπίας ή για την κλωνοποίηση της φωνής μιας διασημότητας.

Σε αντίθεση με το Play.ht, το Descript δεν περιορίζει το είδος περιεχομένου που μπορούν να δημιουργήσουν οι άνθρωποι με το Overdub μόλις δημιουργηθεί μια φωνή.

Πολλά από τα βίντεο κλωνοποίησης φωνής διασημοτήτων που κυκλοφόρησαν τους τελευταίους μήνες έγιναν χρησιμοποιώντας λογισμικό από μια εταιρεία που ονομάζεται ElevenLabs. Τον Ιανουάριο, οι χρήστες του 4chan άρχισαν να χρησιμοποιούν το λογισμικό ElevenLabs για να παράγουν ψεύτικα κλιπ διασημοτήτων που εμπλέκονται σε ρητορική μίσους. Eleven Labs αποκρίθηκε αφαιρώντας τη δυνατότητα κλωνοποίησης φωνής από την ελεύθερη βαθμίδα της και κυκλοφόρησε ένα εργαλείο για να βοηθήσει το κοινό να αναγνωρίσει ψεύτικα βίντεο κλιπ.

Θα μπορούσατε να φανταστείτε ότι αυτή η τεχνολογία γίνεται αντικείμενο κυβερνητικής ρύθμισης, αλλά κανένας από τους ανθρώπους με τους οποίους μίλησα για αυτήν την ιστορία δεν φαινόταν να πιστεύει ότι ήταν καλή ιδέα.

Δεν προσπαθούσαμε να απαγορεύσουμε την τεχνολογία ή να σταματήσουμε την πρόοδο στην τεχνολογία, μου είπε η SAG-AFTRAs Crabtree-Eire. Αντίθετα, επιδιώκουμε να συνεργαστούμε με εταιρείες που αναπτύσσουν αυτές τις τεχνολογίες για να βεβαιωθούμε ότι είναι σεβαστές. Είπε ότι έλαβε μια εκπληκτικά θετική αντίδραση όταν προσπάθησε να συνεργαστεί με εταιρείες τεχνολογίας για την εφαρμογή κατάλληλων διασφαλίσεων.

Η νομοθεσία σε αυτόν τον τομέα μπορεί τελικά να αποδειχθεί μάταιη, επειδή είναι θέμα χρόνου να είναι αρκετά αποτελεσματικό το λογισμικό κλωνοποίησης φωνής ώστε να λειτουργεί εξ ολοκλήρου σε προσωπικό υπολογιστή. Μόλις συμβεί αυτό, θα είναι πολύ δύσκολο για τις κυβερνήσεις να περιορίσουν τη διανομή ή τη χρήση του.

Επομένως, το πιο σημαντικό αντίμετρο κατά της κακής χρήσης της κλωνοποίησης φωνής μπορεί να είναι να διασφαλίσουμε ότι το κοινό κατανοεί ότι υπάρχει λογισμικό κλωνοποίησης φωνής υψηλής ποιότητας. Οι περισσότερες καταχρήσεις της κλωνοποίησης φωνής εξαρτώνται από το ότι οι άνθρωποι λανθασμένα υποθέτουν ότι ο ήχος είναι γνήσιος. Εάν το κοινό γνωρίζει για την τεχνολογία κλωνοποίησης φωνής, ίσως να είναι αρκετά προσεκτικό όσον αφορά την πιστή των αποδείξεων που συναντά με τα δικά του αυτιά.

Leave a Reply

Your email address will not be published. Required fields are marked *