Francuska firma Mistral zajmująca się sztuczną inteligencją uruchomiła model zamiany tekstu na mowę o otwartym kodzie źródłowym o nazwie Voxtral TTS, przeznaczony dla asystentów głosowych AI i aplikacji dla przedsiębiorstw, takich jak obsługa klienta. Rozwój ten stawia Mistral bezpośrednio w stosunku do konkurentów, w tym ElevenLabs, Deepgram i OpenAI.
Voxtral TTS obsługuje dziewięć języków: angielski, francuski, niemiecki, hiszpański, holenderski, portugalski, włoski, hindi i arabski. Model ma na celu spełnienie wymagań klientów w zakresie elastycznego modelu mowy odpowiedniego dla różnych urządzeń brzegowych, zapewniając ekonomiczne rozwiązanie, które utrzymuje wysoką wydajność.
Pierre Stock, wiceprezes ds. operacji naukowych w Mistral AI, powiedział: „Nasi klienci prosili o model mowy. Dlatego zbudowaliśmy niewielki model mowy, który zmieści się na smartwatchu, smartfonie, laptopie lub innych urządzeniach brzegowych”. Podkreślił, że choć cena modelu jest konkurencyjna, to zapewnia on wydajność na najwyższym poziomie.
Model pozwala na adaptację niestandardowych głosów z próbkami krótszymi niż pięć sekund. Wychwytuje subtelne cechy, takie jak akcenty i nieregularności mowy. Dodatkowo Voxtral TTS, oparty na Ministral 3B, może zmieniać języki bez utraty jakości głosu, dzięki czemu nadaje się do tłumaczeń i dubbingu w czasie rzeczywistym.
Wskaźniki wydajności modelu są godne uwagi. Ma czas do pierwszego dźwięku (TTFA) wynoszący 90 milisekund dla 10-sekundowej próbki składającej się z 500 znaków i współczynnik czasu rzeczywistego (RTF) wynoszący 6x, co oznacza, że może wyrenderować klip w około 1,6 sekundy.
Ta premiera jest następstwem wprowadzenia przez Mistral na początku 2023 roku dwóch modeli transkrypcji, przeznaczonych do przetwarzania dużych partii i zastosowań w czasie rzeczywistym z niskimi opóźnieniami. Voxtral TTS jest częścią strategii Mistral polegającej na dostarczaniu przedsiębiorstwom kompleksowego pakietu produktów głosowych.
Stock przedstawił plany na przyszłość, stwierdzając: „Planujemy mieć kompleksową platformę, która będzie w stanie obsługiwać multimodalne strumienie danych wejściowych, w tym dźwięk, tekst i obraz”. Platforma ta ma na celu usprawnienie informacji przetwarzanych przez systemy, z którymi się integruje.








