Wirtualny asystent Apple, Siri, stał się nieodzowna część ekosystemu iOS, ale jego możliwości rozpoznawania głosu napotkały trudności w hałaśliwym otoczeniu i przy zniekształconych głosach. Dążąc do rozwiązania tych ograniczeń, niedawny wniosek patentowy firmy Apple rzucił światło na badania giganta technologicznego nad włączeniem umiejętności czytania z ruchu warg w Siri.
Ta przełomowa funkcja może wykorzystać technologię wykrywania ruchu, np akcelerometry Lub żyroskopy, wykryć subtelne ruchy twarzy i zwiększyć dokładność poleceń głosowych. Chociaż ten patent wskazuje na ekscytujące możliwości, pozostaje niepewny kiedy i jak Apple planuje wdrożyć tę nową funkcję.
Logika stojąca za patentem Apple na czytanie z ust dla Siri
Zgłoszenie patentowe, złożone w r Styczeń, przedstawia system, który wykorzystuje dane ruchu do określenia jeśli ruchy ust użytkownika są zgodne z wypowiadanymi słowami lub wyrażeniami. Zamiast polegać wyłącznie na tradycyjnych systemy rozpoznawania głosu, na które może mieć wpływ hałas w tle i drenaż zasobów urządzenia, Proponowana przez Apple metoda zauważa wibracje mięśni twarzy, ruchy głowy i ruchy innych części ust. Wykorzystując czujniki ruchu, takie jak akcelerometry i żyroskopy, to innowacyjne podejście może potencjalnie przezwyciężyć wiele wyzwań stojących przed istniejącą technologią rozpoznawania głosu.
Implikacje wykraczające poza smartfony
Podczas gdy patent wymienia przede wszystkim iPhone’y, wskazuje na szerszy zakres realizacji. Apple przewiduje rozszerzenie tej technologii na inne urządzenia, w tym AirPods, a nawet „inteligentne okulary”, co oznacza szeroki wachlarz potencjalnych zastosowań. Jednak biorąc pod uwagę zaprzestanie przez Apple projektu inteligentnych okularów, wydaje się, że nacisk kładziony jest na zestaw słuchawkowy Vision Pro, który pozostaje owiany tajemnicą.
Poszukiwanie danych
Aby rozwinąć tę zdolność czytania z ruchu warg, firma Apple wymagałaby znaczne ilości danych na temat ruchów ust człowieka. Tworząc „profil głosowy” dla użytkowników mogłoby potencjalnie zaspokoić tę potrzebę. Najnowsze funkcje ułatwień dostępu firmy Apple, w tym Live Speech na iOS, umożliwiają gromadzenie profili głosowych użytkowników. Profile te mogą służyć jako podstawa do szkolenie modelu językowego który rozpoznaje ruchy twarzy z obszernych zbiorów danych. Zamiłowanie firmy do subtelnej integracji sztucznej inteligencji z jej funkcjami jest zgodne z ideą włączenia „transformatorowy model językowy” za umiejętność czytania z ruchu warg.
Droga przed nami
Natomiast zgłoszenie patentowe oznacza znaczny postęp w technologii rozpoznawania głosu, jego rzeczywista integracja z produktami Apple pozostaje niepewna. Znany analityk łańcucha dostaw firmy Apple, Ming Chi Kuo, zwrócił uwagę, że postępy firmy w zakresie generatywnej sztucznej inteligencji pozostają w tyle za konkurencją, i nic nie wskazuje na to, by takie modele głębokiego uczenia się zostały w najbliższym czasie zintegrowane z produktami sprzętowymi. Jednak opracowanie przez Apple wewnętrznego chatbota o nazwie kodowej „Apple GPT” może wskazywać na potencjalne ulepszenia Siri związane z AI.
Zgłoszenie patentowe Apple ujawniające plany czytającą z ruchu warg Siri zapoczątkowuje nową erę technologii rozpoznawania głosu. Badając technologię wykrywania ruchu jako sposób na poprawę dokładność poleceń głosowych, Apple demonstruje swoje zaangażowanie w udoskonalanie doświadczeń użytkowników i pozostawanie w czołówce integracji sztucznej inteligencji.
Chociaż harmonogram wdrożenia pozostaje niejasny, koncepcja jest aktualna znaczący potencjał do zrewolucjonizowania interakcji wspomaganych głosem na różnych urządzeniach Apple. Wraz z rozwojem przyszłości użytkownicy Apple z niecierpliwością oczekują dnia, w którym ich wirtualny asystent będzie mógł bez wysiłku czytać z ruchu warg i wykonywać każde polecenie.
Kredyt na wyróżniony obraz: Omid Armin / Nierozpryskiwany
Source: Nowy patent Apple ma na celu przygotowanie Siri do czytania z ruchu warg