MiniMax wypuścił MMX-CLI, interfejs wiersza poleceń oparty na Node.js dla swojej platformy AI, umożliwiający programistom i agentom AI bezpośredni dostęp do możliwości generatywnych.

MMX-CLI odpowiada na wyzwania stojące przed agentami opartymi na dużych modelach językowych (LLM), którzy mają trudności z generowaniem multimediów bez dodatkowych warstw integracji. Nowy interfejs umożliwia użytkownikom wywoływanie różnych funkcji generowania multimediów bezpośrednio jako poleceń powłoki, eliminując potrzebę stosowania protokołów kontekstu modelu.

Interfejs integruje możliwości MiniMax w siedmiu grupach poleceń: tekst mmx, obraz mmx, wideo mmx, mowa mmx, muzyka mmx, wizja mmx i wyszukiwanie mmx. Każde polecenie zapewnia określone funkcjonalności dostosowane do potrzeb programistów i aplikacji AI.

Polecenie tekstowe mmx obsługuje czat wieloobrotowy i dotyczy określonych wariantów modelu MiniMax. Domyślnie korzysta z MiniMax-M2.7, co pozwala na zaawansowane zadania generowania tekstu. Polecenie mmx image umożliwia generowanie obrazu na podstawie podpowiedzi tekstowych, zapewniając opcje dotyczące proporcji i spójności tematu w wielu wynikach. Ta funkcja ułatwia przepływ pracy wymagający ciągłości wizualnej. Polecenie mmx video wykorzystuje MiniMax-Hailuo-2.3 do generowania wideo, z opcjami synchronicznego odpytywania lub asynchronicznego śledzenia zadań. Użytkownicy mogą określić klatkę otwierającą do generowania wideo za pomocą flag polecenia.

  Mistral uruchamia platformę Forge dla niestandardowych modeli sztucznej inteligencji dla przedsiębiorstw

Polecenie mowy mmx w MMX-CLI obejmuje ponad 30 głosów zamiany tekstu na mowę. Pozwala użytkownikom dostosować parametry, takie jak prędkość, głośność i wysokość, jednocześnie obsługując synchronizację napisów. Wprowadzane dane są ograniczone do 10 000 znaków.

Za pomocą polecenia mmx music użytkownicy mogą generować muzykę na podstawie tekstu i definiować różne parametry kompozycyjne, takie jak gatunek i instrumentacja. Dostępne są także opcje osadzania znaków wodnych. Polecenie mmx Vision interpretuje obrazy przy użyciu modelu języka wizyjnego, umożliwiając użytkownikom zadawanie pytań o zawartość obrazów za pomocą podpowiedzi.

Polecenie wyszukiwania mmx ułatwia wyszukiwanie w Internecie, zwracając wyniki w formacie tekstowym lub JSON. Zarówno struktura poleceń, jak i podstawowa architektura techniczna są zoptymalizowane pod kątem użyteczności w różnych środowiskach. MMX-CLI jest rozwijany głównie w TypeScript i jest kompatybilny z Node.js 18+. Jego wdrożenie jest proste i obejmuje ustrukturyzowaną obsługę błędów oraz obsługę routingu API w dwóch regionach.

MiniMax stwierdził, że MMX-CLI znacząco zmniejsza bariery integracyjne dla rozwoju sztucznej inteligencji, zapewniając ujednolicone narzędzie do różnorodnych możliwości generowania multimediów. To, w połączeniu z łatwą konfiguracją agentów AI, usprawnia proces tworzenia inteligentnych aplikacji.

  DeepSeek trwale obniża cenę flagowego modelu V4 Pro AI o 75%

Źródło wyróżnionego obrazu