Podejście firmy Microsoft do syntezy tekstu na mowę, Microsoft VALL-E zostało ogłoszone w r publikacja wydana przez firmę. Model audio wymaga tylko 3-sekundowego pliku audio do przetworzenia danych wejściowych.
Firma Microsoft uruchomiła właśnie Microsoft VALL-E, nowatorski model językowy do syntezy tekstu na mowę (TTS), który wykorzystuje kodeki kodeków audio jako reprezentacje pośrednie. Został wstępnie przeszkolony na 60 000 godzin danych dotyczących mowy w języku angielskim, a następnie wyświetlił umiejętności uczenia się w kontekście w warunkach zero-shot.

Microsoft VALL-E może generować wysokiej jakości spersonalizowaną mowę za pomocą zaledwie trzysekundowego zarejestrowanego nagrania ukośnego mówcy działającego jako bodziec akustyczny. Czyni to bez potrzeby dodatkowej inżynierii strukturalnej, wstępnie zaprojektowanych funkcji akustycznych lub dostrajania. Obsługuje uczenie się kontekstowe i oparte na monitach podejścia TTS typu zero-shot. Wydaje się, że skalowanie częściowo nadzorowanych danych dla TTS nie zostało w pełni wykorzystane, ponieważ Microsoft wykorzystał znaczną ilość częściowo nadzorowanych danych do skonstruowania uogólnionego systemu TTS w wymiarze głośników.
Co możesz zrobić z Microsoft VALL-E?
Według naukowców Microsoft VALL-E to „model językowy kodeków neuronowych”, który został wyszkolony przy użyciu dyskretnych kodów „pochodzących z istniejącego wcześniej neuronowego modelu kodeków audio”. Został wyszkolony na 60 tysiącach godzin mowy, czyli „setki razy więcej niż istniejące systemy”, zgodnie z oświadczeniem. Te przykłady są przekonujące w porównaniu z wcześniejszymi próbami, które w oczywisty sposób były robotami, mimo że sztuczna inteligencja istnieje już od jakiegoś czasu i może realistycznie naśladować ludzką mowę.

Microsoft VALL-E może „zachować emocje i środowisko słuchowe mówcy”, według naukowców z monitu. Chociaż robi wrażenie, technologia wciąż jest daleka od zastąpienia aktorów głosowych, ponieważ znalezienie odpowiedniego tonu i emocji podczas występu jest czymś innym. Nawet zaawansowana wersja Microsoft VALL-E nie byłaby w stanie działać tak dobrze, jak wykwalifikowany profesjonalista, jednak firmy często przedkładają opłacalność nad jakość.
Na Wersja demonstracyjna GitHub firmy Microsoftmożesz posłuchać niektórych sampli.
Funkcje Microsoft VALL-E
Chociaż Microsoft VALL-E jest bardzo nowy, ma już wiele funkcji.
Synteza różnorodności: Ponieważ Microsoft VALL-E generuje dyskretne tokeny przy użyciu techniki opartej na próbkowaniu, jego dane wyjściowe są różne dla tego samego tekstu wejściowego. Może zatem syntetyzować różne spersonalizowane próbki mowy przy użyciu różnych losowych nasion.
Utrzymanie środowiska akustycznego: Microsoft VALL-E może zapewnić spersonalizowaną mowę, zachowując jednocześnie środowisko akustyczne podpowiedzi mówcy. W porównaniu z linią bazową VALL-E jest szkolony na dużym zbiorze danych z większą liczbą zmiennych akustycznych. Dźwięk i transkrypcje zostały wyprodukowane przy użyciu próbek ze zbioru danych Fisher.

Utrzymanie emocji mówcy: Używając Bazy Danych Emocjonalnych Głosów jako zasobu, na przykład monitów dźwiękowych, Microsoft VALL-E może tworzyć spersonalizowaną mowę, zachowując emocjonalny ton monitu mówcy. Tradycyjne podejścia trenują model poprzez korelację mowy z transkrypcją i etykietą emocji w nadzorowanym emocjonalnym zbiorze danych TTS. VALL-E potrafi utrzymać emocje w ryzach nawet w sytuacji bez wyjścia.
Microsoft VALL-E nadal ma problemy ze strukturą modelu, pokryciem danych i niezawodnością syntezy.
Jak działa Microsoft WALL-E?
Firma Microsoft wykorzystała LibriLight, bibliotekę audio stworzoną przez Meta, aby wyszkolić umiejętności syntezy VALL-voice E. Większość z 60 000 godzin mowy w języku angielskim pochodzi z publicznych audiobooków LibriVox i jest używana przez ponad 7 000 różnych osób. Głos w trzysekundowej próbce musi bardzo przypominać głos w danych treningowych, aby VALL-E uzyskał zadowalający wynik.

Firma Microsoft oferuje dziesiątki przykładów dźwiękowych modelu AI w akcji na przykładowej stronie VALL-E. „Speaker Prompt”, jedna z próbek, to trzy sekundy dźwięku, który VALL-E ma naśladować. „Ground Truth” to wcześniej nagrany fragment tego mówcy, który jest używany jako punkt odniesienia (coś w rodzaju „kontroli” w eksperymencie). Próbka „VALL-E” jest wynikiem modelu VALL-E, a próbka „Linia bazowa” jest przykładem syntezy wytworzonej przez tradycyjne podejście do syntezy tekstu na mowę.
Podczas gdy Microsoft VALL-E przeszedł do historii jako pierwszy, ale z pewnością nie ostatni duży projekt AI 2023 roku, gigant technologiczny wsparł finansowo OpenAI Point-E, który został opublikowany w ostatnich tygodniach 2022 roku.
