Naukowcy stworzyli nową sieć neuronową, która może wykorzystywać sztuczną inteligencję do śpiewania z próbek mowy. Algorytm chińskich twórców może zsyntetyzować nagranie śpiewu osoby na podstawie nagrania jej zwykłej mowy lub wykonać to na odwrót i zsyntetyzować mowę na podstawie śpiewu. Opublikowano artykuł opisujący rozwój, szkolenie i testowanie algorytmu opublikowany na arXiv.org.
W ostatnich latach rozwój algorytmów sieci neuronowych służących do syntezy mowy, takich jak WaveNet, pozwolił na tworzenie systemów, które są trudne do odróżnienia od prawdziwych ludzi. Na przykład w 2018 roku Google pokazał asystenta głosowego do rezerwacji miejsc, który może nie tylko mówić realistycznie, ale także wstawiać ludzkie dźwięki, które czynią mowę weryfikowalną, na przykład „um”. W efekcie firma musiała też nauczyć algorytmu ostrzegania na początku rozmowy, że nie jest to osoba.
Podobnie jak w przypadku innych algorytmów sieci neuronowych, powodzenie systemów syntezy mowy w dużej mierze nie jest związane z ich architekturą, ale przede wszystkim z dużą ilością danych dostępnych do uczenia. Stworzenie systemu syntezy śpiewu jest z pozoru podobnym zadaniem, ale w rzeczywistości jest znacznie bardziej skomplikowane ze względu na znacznie mniejszą ilość dostępnych danych.
Wielu programistów pracujących nad systemami genowania śpiewu podjęło ostatnio ścieżkę zmniejszania głośności śpiewanych próbek, aby nauczyć algorytmu, a teraz grupa chińskich naukowców pod kierownictwem Dong Yu z Tencent stworzyła system, który może tworzyć realistyczne nagrania dźwiękowe śpiewu z mowy próbki.
Algorytm oparty jest na wcześniejszym opracowaniu Tencenta, sieci neuronowej DurIAN, zaprojektowanej do syntezy realistycznej filmy z mówiącym prezenterem na podstawie tekstu. Teraz umieścili nowy moduł rozpoznawania mowy przed DuarIAN, który tworzy fonemy na podstawie próbki audio.
Autorzy przeszkolili algorytm na dwóch zastrzeżonych zbiorach danych składających się z półtorej godziny śpiewu i 28 godzin mowy. Po treningu przetestowali algorytm na 14 ochotnikach, którzy ocenili realizm syntetyzowanego śpiewu i podobieństwa. W rezultacie jeden z testów uzyskał 3,8 punktu za realizm i 3,65 za podobieństwo. Autorzy opublikowany próbki pracy sieci neuronowej.