Elevenlabs znacznie rozszerzył możliwości językowe modelu AI TEK TO TO METE METE METE (TTS), obsługując obecnie 70 języków. Startup AI z siedzibą w Nowym Jorku ogłosił w zeszłym tygodniu, że dodanie 41 nowych języków sprawia, że ich model jest dostępny do około 90% globalnej populacji.
Ekspansja została zaimplementowana w modelu Eleven V3 (Alpha), który Elevenlabs wprowadził 8 czerwca, reklamując go jako „najbardziej ekspresyjny model TTS”. Firma ogłosiła to oficjalne konto X, wcześniej znane jako Twitter.
Nowo wspierane języki obejmują różnorodny zasięg, taki jak arabski, asamski, bengalski, bułgarski, katalońsko, gujarati, łotewski, malajski, malajalam, marathi, nepali, swahili, tamilskie i telugu. Rozszerza to użyteczność modelu dla twórców treści i firm mających na celu dotarcie do szerszej publiczności.
Elevenlabs doradza użytkownikom, którzy chcą generować tekst w dowolnym z nowych języków, aby zapisać natychmiastowy klon głosowy (IVC) przy wyborze pożądanego języka. Ponadto firma planuje dodać głosy biblioteki głosowej dla nowo obsługiwanych języków w nadchodzących tygodniach.
Jedenaście V3 opiera się na podstawie wielojęzycznych modeli V2 i V2.5 TTS. Kluczową cechą jedenastu V3 jest obsługa wbudowanego tagów audio, w tym „szepty”, „Exted” i „Westchnienia”. Te tagi pozwalają użytkownikom wlewać niuanse emocjonalne i niewerbalne wskazówki do wygenerowanego dźwięku, co skutkuje bardziej dramatyczną i wciągającą dostawą.
Ponadto model obsługuje interakcje wieloosobowe wraz z przerwami, naturalnym stymulacją i nakładającymi się dialogami, tworząc bardziej realistyczne wrażenia konwersacyjne. Elevenlabs podkreśla, że jedenaście V3 pokazuje lepsze obsługę elementów, takich jak stres, kadencja i świadomość kontekstowa.
Model Eleven V3 jest obecnie dostępny za pośrednictwem strony internetowej i aplikacji mobilnych. Jednak nie jest jeszcze dostępny jako interfejs programowania aplikacji (API).
Przed rozszerzeniem języka, w kwietniu, Elevenlabs wprowadziło agenta, nową funkcję agenta zorientowaną na przedsiębiorstwo zaprojektowane do konwersacyjnej sztucznej inteligencji. Ta funkcja umożliwia dwóm agentom AI komunikowanie się ze sobą i bezproblemowo przekazanie rozmów, wraz z odpowiednimi danymi rozmów, bardziej wyspecjalizowanym agentowi.
Source: Elevenlabs AI tekst do mowy obsługuje teraz 70 języków








