TechBriefly PL
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly PL
No Result
View All Result
Home Tech
Wyjaśnienie Microsoft VALL-E: Voice DALL-E

Wyjaśnienie Microsoft VALL-E: Voice DALL-E

byÖzgürcan Özergin
10/01/2023
in Tech
Reading Time: 4 mins read
Share on FacebookShare on Twitter

Podejście firmy Microsoft do syntezy tekstu na mowę, Microsoft VALL-E zostało ogłoszone w r publikacja wydana przez firmę. Model audio wymaga tylko 3-sekundowego pliku audio do przetworzenia danych wejściowych.

Firma Microsoft uruchomiła właśnie Microsoft VALL-E, nowatorski model językowy do syntezy tekstu na mowę (TTS), który wykorzystuje kodeki kodeków audio jako reprezentacje pośrednie. Został wstępnie przeszkolony na 60 000 godzin danych dotyczących mowy w języku angielskim, a następnie wyświetlił umiejętności uczenia się w kontekście w warunkach zero-shot.

Microsoft VALL-E
Microsoft VALL-E to podejście oparte na modelu językowym do syntezy tekstu na mowę

Microsoft VALL-E może generować wysokiej jakości spersonalizowaną mowę za pomocą zaledwie trzysekundowego zarejestrowanego nagrania ukośnego mówcy działającego jako bodziec akustyczny. Czyni to bez potrzeby dodatkowej inżynierii strukturalnej, wstępnie zaprojektowanych funkcji akustycznych lub dostrajania. Obsługuje uczenie się kontekstowe i oparte na monitach podejścia TTS typu zero-shot. Wydaje się, że skalowanie częściowo nadzorowanych danych dla TTS nie zostało w pełni wykorzystane, ponieważ Microsoft wykorzystał znaczną ilość częściowo nadzorowanych danych do skonstruowania uogólnionego systemu TTS w wymiarze głośników.

Co możesz zrobić z Microsoft VALL-E?

Według naukowców Microsoft VALL-E to „model językowy kodeków neuronowych”, który został wyszkolony przy użyciu dyskretnych kodów „pochodzących z istniejącego wcześniej neuronowego modelu kodeków audio”. Został wyszkolony na 60 tysiącach godzin mowy, czyli „setki razy więcej niż istniejące systemy”, zgodnie z oświadczeniem. Te przykłady są przekonujące w porównaniu z wcześniejszymi próbami, które w oczywisty sposób były robotami, mimo że sztuczna inteligencja istnieje już od jakiegoś czasu i może realistycznie naśladować ludzką mowę.

  LoLdle odpowiada dzisiaj: klasyka, cytat, umiejętność, emotikony, plusk (25 stycznia)
Microsoft VALL-E
Microsoft VALL-E został przeszkolony na 60 tysiącach godzin przemówień

Microsoft VALL-E może „zachować emocje i środowisko słuchowe mówcy”, według naukowców z monitu. Chociaż robi wrażenie, technologia wciąż jest daleka od zastąpienia aktorów głosowych, ponieważ znalezienie odpowiedniego tonu i emocji podczas występu jest czymś innym. Nawet zaawansowana wersja Microsoft VALL-E nie byłaby w stanie działać tak dobrze, jak wykwalifikowany profesjonalista, jednak firmy często przedkładają opłacalność nad jakość.

Na Wersja demonstracyjna GitHub firmy Microsoftmożesz posłuchać niektórych sampli.

Funkcje Microsoft VALL-E

Chociaż Microsoft VALL-E jest bardzo nowy, ma już wiele funkcji.

Synteza różnorodności: Ponieważ Microsoft VALL-E generuje dyskretne tokeny przy użyciu techniki opartej na próbkowaniu, jego dane wyjściowe są różne dla tego samego tekstu wejściowego. Może zatem syntetyzować różne spersonalizowane próbki mowy przy użyciu różnych losowych nasion.

Utrzymanie środowiska akustycznego: Microsoft VALL-E może zapewnić spersonalizowaną mowę, zachowując jednocześnie środowisko akustyczne podpowiedzi mówcy. W porównaniu z linią bazową VALL-E jest szkolony na dużym zbiorze danych z większą liczbą zmiennych akustycznych. Dźwięk i transkrypcje zostały wyprodukowane przy użyciu próbek ze zbioru danych Fisher.

  Panel sterowania NVIDIA nie otwiera się: jak to naprawić?
Microsoft VALL-E
Microsoft VALL-E może zapewnić spersonalizowaną mowę przy jednoczesnym zachowaniu środowiska akustycznego zachęty mówcy

Utrzymanie emocji mówcy: Używając Bazy Danych Emocjonalnych Głosów jako zasobu, na przykład monitów dźwiękowych, Microsoft VALL-E może tworzyć spersonalizowaną mowę, zachowując emocjonalny ton monitu mówcy. Tradycyjne podejścia trenują model poprzez korelację mowy z transkrypcją i etykietą emocji w nadzorowanym emocjonalnym zbiorze danych TTS. VALL-E potrafi utrzymać emocje w ryzach nawet w sytuacji bez wyjścia.

Microsoft VALL-E nadal ma problemy ze strukturą modelu, pokryciem danych i niezawodnością syntezy.

Jak działa Microsoft WALL-E?

Firma Microsoft wykorzystała LibriLight, bibliotekę audio stworzoną przez Meta, aby wyszkolić umiejętności syntezy VALL-voice E. Większość z 60 000 godzin mowy w języku angielskim pochodzi z publicznych audiobooków LibriVox i jest używana przez ponad 7 000 różnych osób. Głos w trzysekundowej próbce musi bardzo przypominać głos w danych treningowych, aby VALL-E uzyskał zadowalający wynik.

Microsoft VALL-E
W tworzeniu Microsoft VALL-E pomogło 7000 różnych osób

Firma Microsoft oferuje dziesiątki przykładów dźwiękowych modelu AI w akcji na przykładowej stronie VALL-E. „Speaker Prompt”, jedna z próbek, to trzy sekundy dźwięku, który VALL-E ma naśladować. „Ground Truth” to wcześniej nagrany fragment tego mówcy, który jest używany jako punkt odniesienia (coś w rodzaju „kontroli” w eksperymencie). Próbka „VALL-E” jest wynikiem modelu VALL-E, a próbka „Linia bazowa” jest przykładem syntezy wytworzonej przez tradycyjne podejście do syntezy tekstu na mowę.

  Wskazówki dotyczące przygotowywania się do egzaminu AZ-104 Azure Administrator

Podczas gdy Microsoft VALL-E przeszedł do historii jako pierwszy, ale z pewnością nie ostatni duży projekt AI 2023 roku, gigant technologiczny wsparł finansowo OpenAI Point-E, który został opublikowany w ostatnich tygodniach 2022 roku.

 

Source: Wyjaśnienie Microsoft VALL-E: Voice DALL-E

Related Posts

Amazon planuje w przyszłym tygodniu rozpocząć drugą falę zwolnień w firmach

Amazon planuje w przyszłym tygodniu rozpocząć drugą falę zwolnień w firmach

Wyszukiwarka Google dodaje "Inteligencja osobista" do trybu AI

Wyszukiwarka Google dodaje "Inteligencja osobista" do trybu AI

JBL wkracza na rynek wzmacniaczy do ćwiczeń z technologią separacji trzpieni opartą na sztucznej inteligencji

JBL wkracza na rynek wzmacniaczy do ćwiczeń z technologią separacji trzpieni opartą na sztucznej inteligencji

Konsorcjum Oracle i Silver Lake wiodące w przełomowej umowie TikTok w USA

Konsorcjum Oracle i Silver Lake wiodące w przełomowej umowie TikTok w USA

Amazon planuje w przyszłym tygodniu rozpocząć drugą falę zwolnień w firmach
Tech

Amazon planuje w przyszłym tygodniu rozpocząć drugą falę zwolnień w firmach

Wyszukiwarka Google dodaje "Inteligencja osobista" do trybu AI
Tech

Wyszukiwarka Google dodaje "Inteligencja osobista" do trybu AI

JBL wkracza na rynek wzmacniaczy do ćwiczeń z technologią separacji trzpieni opartą na sztucznej inteligencji
Tech

JBL wkracza na rynek wzmacniaczy do ćwiczeń z technologią separacji trzpieni opartą na sztucznej inteligencji

Konsorcjum Oracle i Silver Lake wiodące w przełomowej umowie TikTok w USA
Tech

Konsorcjum Oracle i Silver Lake wiodące w przełomowej umowie TikTok w USA

Substack uruchamia aplikację telewizyjną na platformy Apple i Google
Tech

Substack uruchamia aplikację telewizyjną na platformy Apple i Google

TechBriefly PL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • Science
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.