W oparciu o podpowiedzi tekstowe, Meta’s MusicGen może tworzyć krótkie nowe kompozycje muzyczne, które opcjonalnie są dopasowane do istniejącej melodii.
MusicGen jest zbudowany na modelu Transformer, podobnie jak większość używanych obecnie modeli językowych. MusicGen przewiduje następny segment utworu muzycznego w sposób podobny do tego, jak model językowy przewiduje kolejne litery we frazie. Naukowcy używają EnCodec firmy Meta tokenizer audio do dzielenia danych audio na mniejsze części. MusicGen to szybkie i skuteczne jednoetapowe podejście, które wykonuje równoległe przetwarzanie tokenów.
Do szkolenia załoga używana 20 000 godzin autoryzowanej muzyki. Używali 10 000wysokiej jakości dźwięk nagrania z wewnętrznego zestawu danych, a w szczególności dane muzyczne Shutterstock i Pond5.

MusicGen: Co to jest?
Podobnie jak większość używanych obecnie modeli językowych, MusicGen jest konstruowany przy użyciu modelu Transformer. Podobnie jak model językowy przewiduje kolejne litery w zdaniu, MusicGen przewiduje następną sekcję utworu muzycznego.
Dane audio są dzielone przez badaczy na mniejsze bity przy użyciu tokenizera audio EnCodec firmy Meta. MusicGen to jednoetapowa metoda, która szybko i skutecznie przetwarza tokeny równolegle.
Wraz ze skutecznością projektu i szybkością produkcji, MusicGen wyróżnia się zdolnością do zarządzania zarówno tekstem, jak i wskazówkami muzycznymi. Muzyka w pliku audio jest zgodna z podstawowym stylem ustalonym w tekście.
Nie możesz dokładnie zmienić kierunku melodii, aby usłyszeć ją, powiedzmy, w innych gatunkach muzycznych. Służy jedynie jako ogólny przewodnik po generacji i nie jest dokładnie powielany w danych wyjściowych.
Pomimo faktu, że wiele innych modeli obsługuje generowanie tekstu, syntezę głosu, generowane efekty wizualne, a nawet krótkie filmy, nie było wielu wysokiej jakości przykładów produkcji muzycznej, które zostały udostępnione publiczności.

MusicGen: Jak go używać?
Użytkownicy mogą przetestować MusicGen za pomocą API przytulania twarzy, ale w zależności od tego, ilu użytkowników używa go jednocześnie, wyprodukowanie dowolnej muzyki może zająć trochę czasu. Możesz umieścić własną instancję modelu, korzystając ze strony internetowej Hugging Face, aby uzyskać znacznie szybsze wyniki. Możesz pobrać kod i uruchomić go samodzielnie, jeśli masz wymaganą wiedzę i narzędzia.
Oto jak wypróbować wersję online, jeśli, jak większość ludzi, chcesz:
- Początek przeglądarka internetowa.
- Odwiedź stronę internetową dla Przytulanie twarzy.
- Wybierz w prawym górnym rogu Przestrzenie.
- Szukaj „Gen muzyki” w pudełku.
- Zlokalizuj ten, który Facebook opublikowany.
- W polu po lewej stronie wpisz monit.
- Wybierać “Generować”.
To wszystko, co musisz wiedzieć!
MusicGen pokonuje MusicLM o włos
Trzy różne rozmiary model — 300 milionów (300 mln), 1,5 miliarda (1,5 miliarda), I 3,3 miliarda (3.3B) parametry — zostały przetestowane przez autorów badania. The 1,5 miliarda model parametryczny został uznany przez ludzi za najlepszy, jednak odkryli, że większe modele generowały dźwięki o wyższej jakości. Z drugiej strony, 3,3 miliarda model parametryczny działa bardziej poprawnie podczas dopasowywania wprowadzanego tekstu z wyjściem audio.

MusicGen uzyskuje lepsze wyniki zarówno w obiektywnych, jak i subiektywnych pomiarach, które mierzą, jak dobrze muzyka pasuje do słów i jak wiarygodna jest kompozycja w porównaniu z innymi modelami muzycznymi, takimi jak Riffusion, Mousai, MusicLM i Noise2Music. Ogólnie rzecz biorąc, modele są nieco lepsze niż Google MusicLM.
Kod i modele zostały udostępnione przez Meta jako open source na Github, a komercyjne wykorzystanie jest dozwolone. Trwa demo przytulanie.
Czy wiesz, czym są udostępnione linki ChatGPT?
Source: Co to jest MusicGen Meta i jak go używać? • TechKrótko








