OpenAI ogłosiło nowe funkcje inteligencji głosowej w swoim interfejsie API, które mają pomóc programistom w tworzeniu interaktywnych aplikacji umożliwiających konwersację, transkrypcję i tłumaczenie w czasie rzeczywistym. Nowo wprowadzony model GPT‑Realtime‑2, zbudowany w oparciu o rozumowanie klasy GPT‑5, ma na celu obsługę bardziej złożonych żądań użytkowników w porównaniu do swojego poprzednika, GPT-Realtime-1.5.
Dodatkowo OpenAI wprowadziło GPT-Realtime-Translate, które zapewnia usługi tłumaczenia w czasie rzeczywistym dla ponad 70 języków wejściowych i 13 języków wyjściowych. Ta funkcja ma na celu dotrzymanie kroku użytkownikom podczas rozmów.
Kolejną ważną aktualizacją jest funkcja GPT-Realtime-Whisper, która umożliwia transkrypcję mowy na tekst na żywo na potrzeby interakcji w czasie rzeczywistym. „Wspólnie wprowadzane przez nas modele przenoszą dźwięk w czasie rzeczywistym z prostych połączeń i odpowiedzi na interfejsy głosowe, które faktycznie mogą działać: słuchać, rozumować, tłumaczyć, transkrybować i podejmować działania w miarę rozwoju rozmowy” – stwierdził OpenAI.
Według OpenAI aktualizacje te dotyczą kilku branż, w tym obsługi klienta, edukacji, mediów i wydarzeń. Firma zauważyła, że nowe funkcje mogą również wiązać się z ryzykiem nadużyć, takich jak tworzenie spamu lub oszustwa. Aby temu zaradzić, OpenAI wdrożyło bariery zaprojektowane w celu wstrzymywania rozmów naruszających wytyczne dotyczące szkodliwych treści.
Wszystkie nowe modele głosu są częścią interfejsu Realtime API OpenAI. Struktura rozliczeń jest różna, przy czym GPT-Realtime-Translate i GPT-Realtime-Whisper są rozliczane minutowo, natomiast GPT-Realtime-2 są rozliczane na podstawie zużycia tokena.








