Po raz pierwszy sztuczna inteligencja (AI) była w stanie osiągnąć większą dokładność niż ludzie w rozpoznawaniu codziennych rozmów. W przyszłości technologia ta mogłaby służyć jako podstawa tłumaczeń automatycznych.

Asystenci cyfrowi, tacy jak Alexa, Cortana czy Siri, umożliwiają automatyczną transkrypcję mówionych tekstów i tłumaczeń. W tym celu systemy rozpoznawania mowy wykorzystują sztuczne sieci neuronowe, które przy użyciu bibliotek przypisują sygnały akustyczne do poszczególnych sylab i słów. Wyniki są teraz bardzo dobre, gdy do asystentów zwraca się bezpośrednio lub gdy tekst jest czytany na głos. Jednak w życiu codziennym nadal często występują problemy, które, jak wykazało badanie przeprowadzone niedawno przez Ruhr-Universität-Bochum (RUB), mogą również prowadzić do niezamierzonej aktywacji asystentów mowy przez niezrozumiane słowa ostrzegawcze.

Obecnie rozmowy między kilkoma osobami nadal często powodują problemy. Według Alexa Waibela z Instytutu Technologii w Karlsruhe (KIT) „są przerwy, jąkający się, wypełniające dźwięki, takie jak„ ah ”lub„ hm ”, a także śmiech lub kaszel, gdy ludzie mówią do siebie. Ponadto, jak wyjaśnia Waibel, „słowa są często wymawiane w niejasny sposób. W rezultacie nawet ludzie mają problemy z utworzeniem dokładnej transkrypcji takiego nieformalnego dialogu. Jednak jeszcze większe trudności stwarza sztuczna inteligencja (AI).

  Dokumenty Google dodają starą funkcję programu Microsoft Word

Codzienne rozmowy są problematyczne dla AI

Według wstępnego druku opublikowanego przez arXiv, naukowcom z Waibel udało się teraz opracować sztuczną inteligencję, która transkrybuje codzienne rozmowy szybciej i lepiej niż ludzie. Nowy system oparty jest na technologii, która w czasie rzeczywistym tłumaczy wykłady uniwersyteckie z języka niemieckiego i angielskiego. Tak zwane sieci koderów i dekoderów służą do analizy sygnałów akustycznych i przypisywania im słów. Według Waibela „rozpoznawanie mowy spontanicznej jest najważniejszym elementem tego systemu, ponieważ błędy i opóźnienia szybko powodują, że tłumaczenie staje się niezrozumiałe.

Zwiększona dokładność i zmniejszone opóźnienie

Teraz naukowcy z KIT znacznie ulepszyli system, a zwłaszcza znacznie zmniejszyli opóźnienia. Waibel i jego zespół zastosowali podejście oparte na prawdopodobieństwie wystąpienia pewnych kombinacji słów i połączyli je z dwoma innymi modułami rozpoznawania.

W standardowym teście nowy system rozpoznawania mowy odsłuchiwał fragmenty zbioru około 2000 godzin rozmów telefonicznych, które system miał automatycznie transkrybować. Według Waibela „współczynnik błędów ludzkich wynosi tutaj około 5,5 procent. Z drugiej strony sztuczna inteligencja osiągnęła współczynnik błędów tylko 5,0 procent, po raz pierwszy przewyższając ludzi pod względem rozpoznawania codziennych rozmów. Czas opóźnienia, tj. Opóźnienie między nadejściem sygnału a wynikiem, jest również bardzo szybkie i wynosi średnio 1,63 sekundy, ale jeszcze nie zbliża się do średniej latencji 1 sekundy u człowieka.

  Doskonałość w rzemiośle: Spraw sobie rozbite Audi R8 i spraw, by zabłysło

W przyszłości nowy system mógłby posłużyć np. Jako podstawa do automatycznych tłumaczeń lub innych scenariuszy, w których komputery mają przetwarzać język naturalny.