Google ulepsza Bliźnięta na żywo dzięki wizualnym nakładkom, które podkreślają obiekty w kanale aparatu i nowy model audio dla bardziej ekspresyjnych rozmów. Funkcja wizualnej nakładki pomaga zidentyfikować przedmioty lub uzyskać porady, umieszczając biały prostokąt wokół obiektów w widoku aparatu. Nowy natywny model audio został zaprojektowany z myślą o bardziej responsywnych i ekspresyjnych rozmowach.

Na zeszłorocznym Made by Google Event, Google zaprezentował Gemini Live, funkcję zaprojektowaną do bardziej naturalnych, bez użycia głośnomówiących rozmów z jego AI Chatbot. Od czasu debiutu Google wprowadził liczne aktualizacje do Gemini Live, w szczególności możliwość udostępniania kanału i ekranu aparatu.

Google ogłosił poważne ulepszenie funkcji udostępniania aparatów Gemini Live i nowy model audio, aby interakcje były jeszcze bardziej naturalne.

Podczas prezentacji nowej serii Google Pixel 10 Google szczegółowo opisał kilka ulepszeń przybywających na Gemini na żywo na Androidzie. Po pierwsze, kiedy udostępnisz kanał aparatu, Gemini Live będzie mógł wyświetlać wizualne nakładki, aby wyróżnić określone obiekty. Te podświetlenia pojawiają się jako prostokąta z białym obciążeniem wokół obiektu, podczas gdy reszta widoku jest nieco przyciemniona, aby wyróżnić się.

  Porównanie: inteligentne okulary RayBan Meta i Apple Vision Pro

Ta funkcja „Wizualne wskazówki” została zaprojektowana, aby pomóc Ci szybko zlokalizować i zidentyfikować elementy w widoku aparatu. Na przykład możesz go użyć, aby wyróżnić prawidłowy przycisk na maszynie, wskazać określonego ptaka w stadzie lub zidentyfikować odpowiednie narzędzie do projektu. Możesz również użyć go w celu uzyskania porady, na przykład proszenia Gemini o zalecenie odpowiedniej pary butów na okazję.

Funkcja może również obsługiwać bardziej złożone scenariusze. W briefingu menedżer produktu Google udostępnił osobisty przykład z ostatniej międzynarodowej podróży. Starał się dowiedzieć się, czy mógłby zaparkować w określonym miejscu, nie mogąc zrozumieć znaków obcokrajowców, oznaczeń drogowych i lokalnych przepisów. Po wyciągnięciu telefonu i otwarciu Gemini na żywo, wskazał aparat na miejscu i zapytał, czy parking jest dozwolony. Gemini sprawdził lokalne zasady, przetłumaczyło znaki, a następnie podkreślił miejsce na ulicy, na której mógł zaparkować za darmo przez następne dwie godziny.

Wizualne wskazówki w Gemini Live będą dostępne poza pudełkiem w serii Google Pixel 10 i zacznie wdrażać inne urządzenia z Androidem w przyszłym tygodniu. Ta funkcja rozszerzy się na urządzenia iOS w nadchodzących tygodniach. Subskrypcja Google AI Pro lub Ultra nie będzie wymagana.

  Spotify dotarł do 165 milionów płacących subskrybentów, ale jak pomogły podcasty?

Oprócz nakładek wizualnych Google aktualizuje Bliźnięta na żywo z nowym natywnym modelem audio zaprojektowanym dla bardziej responsywnych i ekspresyjnych rozmów.

Po pierwsze, ten nowy model odpowie odpowiednio na to, co mówisz. Na przykład, jeśli rozmawiasz o stresującym temacie, zareaguje to spokojniejszym, bardziej „zmierzonym” głosem.

Google mówi, że będziesz mógł również kontrolować sposób, w jaki przemawia do ciebie nowy model audio. Jeśli masz problemy z nadążaniem za tym, co mówi Bliźnięta, na przykład możesz poprosić go o mówienie wolniej. Lub jeśli się spieszysz, możesz poprosić o przyspieszenie.

Na koniec możesz nawet opowiedzieć ci dramatyczną historię z perspektywy postaci historycznej. „Poproś Gemini, aby opowiedział o Imperium Rzymskim z perspektywy samego Juliusza Cezara, i uzyskaj bogatą, angażującą narrację z akcentami postaci”, mówi Google w swoim poście na blogu.

Nowa funkcja wizualnych Gemini Live lepiej nadaje się do okularów Android XR, ale miło jest mieć go teraz dostępną na urządzeniach mobilnych, ponieważ wciąż jesteśmy nieco z dala od zdobycia tych okularów.

  Steam nie pobiera (2022): Jak to naprawić?

Ten artykuł został zaktualizowany o 19:50 ET, aby poprawić sekcję dotyczącą naturalnego modelu audio, a także dodać zasoby demo z postu Google.

Source: Google Gemini Live dodaje wizualne nakładki i nowy model audio