OpenAI wprowadza zaawansowane modele głosowej sztucznej inteligencji działające w czasie rzeczywistym

OpenAI ogłosiło nowe funkcje inteligencji głosowej w swoim interfejsie API, które mają pomóc programistom w tworzeniu interaktywnych aplikacji umożliwiających konwersację, transkrypcję i tłumaczenie w czasie rzeczywistym. Nowo wprowadzony model GPT‑Realtime‑2, zbudowany w oparciu o rozumowanie klasy GPT‑5, ma na celu obsługę bardziej złożonych żądań użytkowników w porównaniu do swojego poprzednika, GPT-Realtime-1.5.

Dodatkowo OpenAI wprowadziło GPT-Realtime-Translate, które zapewnia usługi tłumaczenia w czasie rzeczywistym dla ponad 70 języków wejściowych i 13 języków wyjściowych. Ta funkcja ma na celu dotrzymanie kroku użytkownikom podczas rozmów.

Kolejną ważną aktualizacją jest funkcja GPT-Realtime-Whisper, która umożliwia transkrypcję mowy na tekst na żywo na potrzeby interakcji w czasie rzeczywistym. „Wspólnie wprowadzane przez nas modele przenoszą dźwięk w czasie rzeczywistym z prostych połączeń i odpowiedzi na interfejsy głosowe, które faktycznie mogą działać: słuchać, rozumować, tłumaczyć, transkrybować i podejmować działania w miarę rozwoju rozmowy” – stwierdził OpenAI.

Według OpenAI aktualizacje te dotyczą kilku branż, w tym obsługi klienta, edukacji, mediów i wydarzeń. Firma zauważyła, że nowe funkcje mogą również wiązać się z ryzykiem nadużyć, takich jak tworzenie spamu lub oszustwa. Aby temu zaradzić, OpenAI wdrożyło bariery zaprojektowane w celu wstrzymywania rozmów naruszających wytyczne dotyczące szkodliwych treści.

Figma wprowadza agentów OpenAI i Anthropic do procesów projektowania

Wszystkie nowe modele głosu są częścią interfejsu Realtime API OpenAI. Struktura rozliczeń jest różna, przy czym GPT-Realtime-Translate i GPT-Realtime-Whisper są rozliczane minutowo, natomiast GPT-Realtime-2 są rozliczane na podstawie zużycia tokena.

Źródło wyróżnionego obrazu

OpenAI wprowadza zaawansowane modele głosowej sztucznej inteligencji działające w czasie rzeczywistym

Related Stories

OpenAI uruchamia aplikację zwiększającą produktywność ChatGPT Work obsługiwaną przez GPT-5.6

OpenAI uruchamia GPT-5.6 z Sol, Terra i Luna

Google dodaje etykiety informujące o sztucznej inteligencji do reklam w wyszukiwarkach, YouTube i Discover

Anthropic uruchamia pulpit Reflect, aby pomóc użytkownikom zarządzać korzystaniem z Claude