Η Microsoft αποκάλυψε ένα νέο AI μοντέλο. Ερευνητές Researchers ισχυρίζονται πως το VALL-E μπορεί να ακούσει και να…
…προσομοιώσει τη φωνή οποιουδήποτε. Αν και τα περισσότερα AI μπορούν να κάνουν κάτι σχετικό, συνήθως απαιτείται τουλάχιστον ένα λεπτό ηχογραφημένης φωνής ή και περισσότερο. Το VALL-E χρειάζεται μόλις 3 ΔΕΥΤΕΡΟΛΕΠΤΑ ως δείγμα.
Στον δρόμο για τη δημιουργία του VALL-E επιστήμονες έχουν χρησιμοποιήσει την βιβλιοθήκη Libri-Light Meta που αφορά 7,000 ομιλητές. Στην συνέχεια χρησιμοποίησαν AI για την ανάλυση 60,000 ωρών ομιλίας στα Αγγλικά.
Η εταιρία ορίζει το VALL-E ως “neural codec language model,” που βασίζεται σε παρόμοια δουλειά της Meta που χρησιμοποιεί το AI για να φτιάξε text-to-speech ήχο.
Μερικές VALL-E φωνές είναι ρεαλιστικές ενώ άλλες όχι και τόσο. Φαίνεται ότι για να δημιουργηθεί μια προσομείωση η φωνή που θα μπει στο σύστημα θα πρέπει να είναι παρόμοια με αυτή πάνω στην οποία δουλεύτηκαν τα μοντέλα.
Η Microsoft σχεδιάζει να βελτιώσει την ακρίβεια αλλά σήμερα ο κώδικας δεν είναι open-source εξαιτιάς των deepfakes. Υπάρχει όμως demo του VALL-E.
Surprised there isn't more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice ?
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023
Related posts
Categories
- android World
- cinemart / music / video
- comicmania / books
- computing / social media
- consumer electronics
- design / architecture
- ecotech / electric
- exhibitions
- faq / Infographics
- futuristas / iDea
- gadgetfreak taste
- gadgets / stuff
- gaming / fun
- iOS World
- legends / special
- men's world
- military / aviation
- mobile / smartphones
- space talk
- tablets / multimedia
- tech talk / science
- transport / concept