Voxtral ma wystrzelony Nowe modele zrozumienia mowy typu open source, mające na celu zrewolucjonizowanie interakcji ludzkich komputerów poprzez uczynienie interfejsów głosowych bardziej niezawodnymi i dostępnymi. Te najnowocześniejsze modele, dostępne w wariantach 24b i 3B na podstawie licencji Apache 2.0, oferują wyjątkowe możliwości transkrypcji i głębokie zrozumienie, zajmując się ograniczeniami obecnych systemów zastrzeżonych i open source.
Voxtral mosta lukę między wysokie, zamknięte interfejsy API i mniej dokładne alternatywy typu open source. Zapewnia najnowocześniejszą dokładność i rodzime zrozumienie semantyczne w mniej niż połowę ceny porównywalnych interfejsów API. Modele obsługują dźwięk długoterminowy do 30 minut dla transkrypcji i 40 minut na zrozumienie, zawierającą długość kontekstu 32K. Obejmują one również wbudowane pytania i odpowiedzi, automatyczne wykrywanie języka dla szeroko używanych języków (angielski, hiszpański, francuski, portugalski, hindi, niemiecki, holenderski, włoski) oraz bezpośrednie połączenie funkcji z poleceń głosowych.

W testach porównawczych Voxtral znacznie przewyższa wiodące modele open source, takie jak Whisper Large-V3 i silnie konkuruje z Mini transkrypcją GPT-4O i Flash Gemini 2.5 w transkrypcji mowy i zrozumieniu audio. Na przykład Voxtral Mini transkrypcja jest bardziej opłacalna niż Openai Whisper, podczas gdy Voxtral mały pasuje do wydajności Scriba Elevenlabs po niższej cenie. Modele zachowują również silne możliwości zrozumienia tekstu z ich Mistral Small 3.1 Scone.
Modele Voxtral są dostępne do lokalnego pobierania na Hulging Face i API, a ceny zaczynają się od 0,001 USD za minutę. Funkcje korporacyjne obejmują prywatne wdrożenie, dopracowanie specyficzne dla domeny i zaawansowane możliwości kontekstowe, takie jak identyfikacja głośników i wykrywanie emocji. Przyszłe aktualizacje będą obejmować segmentację głośników, znaczniki audio i znaczniki czasu na poziomie słów, dodatkowo zwiększając ich użyteczność.
Source: Mistral uruchamia modele Woxtral: Open-Source Mowy Zrozumienie





