Google’s Gemini AI Assistant obsługuje teraz przesyłanie plików audio, umożliwiając użytkownikom transkrypcję, podsumowanie i wyodrębnienie kluczowych informacji z nagrań. Ta nowa funkcja przekształca się w 10 minut notatek głosowych, spotkań, wykładów i wywiadów w dokumenty z możliwością wyszukiwania. Możliwość przesyłania dźwięku jest dostępna zarówno w Internecie, jak i za pośrednictwem aplikacji mobilnych, dostępnych za pośrednictwem standardowego interfejsu z góry. Według wiceprezesa Google of Gemini, Josh Woodward, funkcja przesyłania plików audio była najbardziej żądana przez użytkowników. Ta funkcjonalność różni się od Gemini Live, która koncentruje się na poleceniach głosowych w czasie rzeczywistym, podczas gdy nowa funkcja jest zaprojektowana do przetwarzania danych z przesłanych plików audio. Podczas testowania Gemini dokładnie przepisało szkice z albumów komediowych i rozmów telefonicznych, z jedynie drobnymi błędami związanymi z rozpoznawaniem nazw. AI skutecznie zidentyfikowała kluczowe elementy i elementy odpowiednie do tworzenia list rzeczy do zrobienia. Dodanie przetwarzania audio jest zgodne z najnowszymi ulepszeniami GEMINI, w tym integracją aplikacji, wizualnym interfejsem opartym na kartach i rozszerzonymi opcjami personalizacji. Ta funkcja umożliwia użytkownikom konwersję zapisanych dzienników i notatek audio na zawartość do wyszukiwania, usprawniając proces wcześniej wymagał zewnętrznego oprogramowania do transkrypcji. Podczas gdy inni asystenci AI, tacy jak CHATGPT (za pomocą Whisper), Anthropic’s Claude i zakłopotanie oferują również możliwości przetwarzania dźwięku, wdrożenie Gemini jest ukierunkowane na codzienne przypadki użycia. Użytkownicy mogą wykorzystać Gemini w celu uproszczenia języka, izolacji komentarzy specyficznych dla mówcy, generowania pytań i tworzenia przewodników naukowych z treści audio. Jednak 10-minutowy limit audio i dzienne ograniczenia użytkowników dla wolnego poziomu mogą ograniczyć częstotliwość użytkowania. Google nie opublikowało jeszcze formalnych cen za przetwarzanie dźwięku o dużej objętości, ponieważ obecnie należy do regularnego limitu GEMINI. Użytkownicy planujący przetwarzanie szeroko zakrojonych treści audio powinni odpowiednio zarządzać ich używaniem. Zasadniczo nowa funkcja audio Gemini zapewnia usprawniony sposób przetwarzania i wyodrębnienia cennych informacji z plików audio, co czyni go przydatnym narzędziem dla różnych aplikacji osobistych i profesjonalnych.
Source: Google Gemini obsługuje teraz przesyłanie plików audio





