Po raz pierwszy sztuczna inteligencja (AI) była w stanie osiągnąć większą dokładność niż ludzie w rozpoznawaniu codziennych rozmów. W przyszłości technologia ta mogłaby służyć jako podstawa tłumaczeń automatycznych.
Asystenci cyfrowi, tacy jak Alexa, Cortana czy Siri, umożliwiają automatyczną transkrypcję mówionych tekstów i tłumaczeń. W tym celu systemy rozpoznawania mowy wykorzystują sztuczne sieci neuronowe, które przy użyciu bibliotek przypisują sygnały akustyczne do poszczególnych sylab i słów. Wyniki są teraz bardzo dobre, gdy do asystentów zwraca się bezpośrednio lub gdy tekst jest czytany na głos. Jednak w życiu codziennym nadal często występują problemy, które, jak wykazało badanie przeprowadzone niedawno przez Ruhr-Universität-Bochum (RUB), mogą również prowadzić do niezamierzonej aktywacji asystentów mowy przez niezrozumiane słowa ostrzegawcze.
Obecnie rozmowy między kilkoma osobami nadal często powodują problemy. Według Alexa Waibela z Instytutu Technologii w Karlsruhe (KIT) „są przerwy, jąkający się, wypełniające dźwięki, takie jak„ ah ”lub„ hm ”, a także śmiech lub kaszel, gdy ludzie mówią do siebie. Ponadto, jak wyjaśnia Waibel, „słowa są często wymawiane w niejasny sposób. W rezultacie nawet ludzie mają problemy z utworzeniem dokładnej transkrypcji takiego nieformalnego dialogu. Jednak jeszcze większe trudności stwarza sztuczna inteligencja (AI).
Codzienne rozmowy są problematyczne dla AI
Według wstępnego druku opublikowanego przez arXiv, naukowcom z Waibel udało się teraz opracować sztuczną inteligencję, która transkrybuje codzienne rozmowy szybciej i lepiej niż ludzie. Nowy system oparty jest na technologii, która w czasie rzeczywistym tłumaczy wykłady uniwersyteckie z języka niemieckiego i angielskiego. Tak zwane sieci koderów i dekoderów służą do analizy sygnałów akustycznych i przypisywania im słów. Według Waibela „rozpoznawanie mowy spontanicznej jest najważniejszym elementem tego systemu, ponieważ błędy i opóźnienia szybko powodują, że tłumaczenie staje się niezrozumiałe.
Zwiększona dokładność i zmniejszone opóźnienie
Teraz naukowcy z KIT znacznie ulepszyli system, a zwłaszcza znacznie zmniejszyli opóźnienia. Waibel i jego zespół zastosowali podejście oparte na prawdopodobieństwie wystąpienia pewnych kombinacji słów i połączyli je z dwoma innymi modułami rozpoznawania.
W standardowym teście nowy system rozpoznawania mowy odsłuchiwał fragmenty zbioru około 2000 godzin rozmów telefonicznych, które system miał automatycznie transkrybować. Według Waibela „współczynnik błędów ludzkich wynosi tutaj około 5,5 procent. Z drugiej strony sztuczna inteligencja osiągnęła współczynnik błędów tylko 5,0 procent, po raz pierwszy przewyższając ludzi pod względem rozpoznawania codziennych rozmów. Czas opóźnienia, tj. Opóźnienie między nadejściem sygnału a wynikiem, jest również bardzo szybkie i wynosi średnio 1,63 sekundy, ale jeszcze nie zbliża się do średniej latencji 1 sekundy u człowieka.
W przyszłości nowy system mógłby posłużyć np. Jako podstawa do automatycznych tłumaczeń lub innych scenariuszy, w których komputery mają przetwarzać język naturalny.