W oparciu o podpowiedzi tekstowe, Meta’s MusicGen może tworzyć krótkie nowe kompozycje muzyczne, które opcjonalnie są dopasowane do istniejącej melodii.

MusicGen jest zbudowany na modelu Transformer, podobnie jak większość używanych obecnie modeli językowych. MusicGen przewiduje następny segment utworu muzycznego w sposób podobny do tego, jak model językowy przewiduje kolejne litery we frazie. Naukowcy używają EnCodec firmy Meta tokenizer audio do dzielenia danych audio na mniejsze części. MusicGen to szybkie i skuteczne jednoetapowe podejście, które wykonuje równoległe przetwarzanie tokenów.

Do szkolenia załoga używana 20 000 godzin autoryzowanej muzyki. Używali 10 000wysokiej jakości dźwięk nagrania z wewnętrznego zestawu danych, a w szczególności dane muzyczne Shutterstock i Pond5.

MusicGen
MusicGen to jednoetapowa metoda, która szybko i skutecznie przetwarza tokeny równolegle

MusicGen: Co to jest?

Podobnie jak większość używanych obecnie modeli językowych, MusicGen jest konstruowany przy użyciu modelu Transformer. Podobnie jak model językowy przewiduje kolejne litery w zdaniu, MusicGen przewiduje następną sekcję utworu muzycznego.

  Wyzwanie Labello: wyjaśnienie trendu TikTok (2023)

Dane audio są dzielone przez badaczy na mniejsze bity przy użyciu tokenizera audio EnCodec firmy Meta. MusicGen to jednoetapowa metoda, która szybko i skutecznie przetwarza tokeny równolegle.

Wraz ze skutecznością projektu i szybkością produkcji, MusicGen wyróżnia się zdolnością do zarządzania zarówno tekstem, jak i wskazówkami muzycznymi. Muzyka w pliku audio jest zgodna z podstawowym stylem ustalonym w tekście.

Nie możesz dokładnie zmienić kierunku melodii, aby usłyszeć ją, powiedzmy, w innych gatunkach muzycznych. Służy jedynie jako ogólny przewodnik po generacji i nie jest dokładnie powielany w danych wyjściowych.

Pomimo faktu, że wiele innych modeli obsługuje generowanie tekstu, syntezę głosu, generowane efekty wizualne, a nawet krótkie filmy, nie było wielu wysokiej jakości przykładów produkcji muzycznej, które zostały udostępnione publiczności.

MusicGen
MusicGen jest zbudowany z wykorzystaniem modelu Transformer, podobnie jak większość obecnie używanych modeli językowych

MusicGen: Jak go używać?

Użytkownicy mogą przetestować MusicGen za pomocą API przytulania twarzy, ale w zależności od tego, ilu użytkowników używa go jednocześnie, wyprodukowanie dowolnej muzyki może zająć trochę czasu. Możesz umieścić własną instancję modelu, korzystając ze strony internetowej Hugging Face, aby uzyskać znacznie szybsze wyniki. Możesz pobrać kod i uruchomić go samodzielnie, jeśli masz wymaganą wiedzę i narzędzia.

  Lokalizacja węgla Palworld i jak łatwo się tam dostać

Oto jak wypróbować wersję online, jeśli, jak większość ludzi, chcesz:

  • Początek przeglądarka internetowa.
  • Odwiedź stronę internetową dla Przytulanie twarzy.
  • Wybierz w prawym górnym rogu Przestrzenie.
  • Szukaj „Gen muzyki” w pudełku.
  • Zlokalizuj ten, który Facebook opublikowany.
  • W polu po lewej stronie wpisz monit.
  • Wybierać “Generować”.

To wszystko, co musisz wiedzieć!

MusicGen pokonuje MusicLM o włos

Trzy różne rozmiary model — 300 milionów (300 mln), 1,5 miliarda (1,5 miliarda), I 3,3 miliarda (3.3B) parametry — zostały przetestowane przez autorów badania. The 1,5 miliarda model parametryczny został uznany przez ludzi za najlepszy, jednak odkryli, że większe modele generowały dźwięki o wyższej jakości. Z drugiej strony, 3,3 miliarda model parametryczny działa bardziej poprawnie podczas dopasowywania wprowadzanego tekstu z wyjściem audio.

MusicGen
MusicGen przewyższa Riffusion, Mousai, MusicLM i Noise2Music w obiektywnych i subiektywnych ocenach tego, jak dobrze muzyka pasuje do tekstu i jest realistyczna

MusicGen uzyskuje lepsze wyniki zarówno w obiektywnych, jak i subiektywnych pomiarach, które mierzą, jak dobrze muzyka pasuje do słów i jak wiarygodna jest kompozycja w porównaniu z innymi modelami muzycznymi, takimi jak Riffusion, Mousai, MusicLM i Noise2Music. Ogólnie rzecz biorąc, modele są nieco lepsze niż Google MusicLM.

  Dlaczego Gmail zaczął ukrywać Twoje wiadomości e-mail i jak to naprawić

Kod i modele zostały udostępnione przez Meta jako open source na Github, a komercyjne wykorzystanie jest dozwolone. Trwa demo przytulanie.

Czy wiesz, czym są udostępnione linki ChatGPT?

Source: Co to jest MusicGen Meta i jak go używać? • TechKrótko