Gadgetfreak :: Not Just Tech
computing / social media, futuristas / iDea, tech talk / science

Μίμηση κάθε φωνής με το Microsoft VALL-E

Η Microsoft αποκάλυψε ένα νέο AI μοντέλο. Ερευνητές Researchers ισχυρίζονται πως το VALL-E μπορεί να ακούσει και να…

…προσομοιώσει τη φωνή οποιουδήποτε. Αν και τα περισσότερα AI μπορούν να κάνουν κάτι σχετικό, συνήθως απαιτείται τουλάχιστον ένα λεπτό ηχογραφημένης φωνής ή και περισσότερο. Το VALL-E χρειάζεται μόλις 3 ΔΕΥΤΕΡΟΛΕΠΤΑ ως δείγμα.

Στον δρόμο για τη δημιουργία του VALL-E επιστήμονες έχουν χρησιμοποιήσει την βιβλιοθήκη Libri-Light Meta που αφορά 7,000 ομιλητές. Στην συνέχεια χρησιμοποίησαν AI για την ανάλυση 60,000 ωρών ομιλίας στα Αγγλικά.

Η εταιρία ορίζει το VALL-E ως “neural codec language model,” που βασίζεται σε παρόμοια δουλειά της Meta που χρησιμοποιεί το AI για να φτιάξε text-to-speech ήχο.

Μερικές VALL-E φωνές είναι ρεαλιστικές ενώ άλλες όχι και τόσο. Φαίνεται ότι για να δημιουργηθεί μια προσομείωση η φωνή που θα μπει στο σύστημα θα πρέπει να είναι παρόμοια με αυτή πάνω στην οποία δουλεύτηκαν τα μοντέλα.

Η Microsoft σχεδιάζει να βελτιώσει την ακρίβεια αλλά σήμερα ο κώδικας δεν είναι open-source εξαιτιάς των deepfakes. Υπάρχει όμως demo του VALL-E.

Related posts

HSP “Solar Skin”

gadgetfreak
8 years ago

Google Chrome 11 beta: με αναγνώριση φωνής HTML5…

gadgetfreak
14 years ago

Η ‘μαγική’ φορητή συσκευή επαυξημένης πραγματικότητας…

gadgetfreak
13 years ago
Exit mobile version