OpenAI uruchamia obrazy ChatGPT 2.0 z rozumowaniem serii O

OpenAI oficjalnie uruchomiło ChatGPT Images 2.0, znacznie zwiększając możliwości generowania obrazów AI po wydaniu GPT-Image-1.5 w grudniu 2025 r. Nowy model, który był testowany na LM Arena AI, może generować szczegółowe obrazy z długimi blokami tekstu, realistycznymi interfejsami użytkownika, a nawet odtwarzać rzeczywiste postacie, w tym Sama Altmana.

Ta aktualizacja stanowi znaczny postęp w podejściu OpenAI do mediów wizualnych. ChatGPT Images 2.0 może tworzyć plany pięter, siatki obrazów, modele postaci i stosować funkcje do obrazów przesyłanych przez użytkowników, wskazując na przejście od oglądania obrazów jedynie jako dekoracji do rozumienia ich jako formy języka.

OpenAI nie przeprowadziło porównań porównawczych nowego modelu, ale twierdzi, że wydajność jest zgodna z „najnowocześniejszymi” możliwościami, zwłaszcza w porównaniu z niedawno wydanym przez Google modelem Nano Banana 2, który umożliwia również integrację tekstu z obrazami. Raporty sugerują, że obrazy ChatGPT 2.0 mogą przewyższać je pod względem wierności i reprodukcji interfejsu użytkownika.

W ramach swojego zaangażowania w bezpieczeństwo OpenAI będzie włączać tagowanie metadanych do obrazów generowanych przez sztuczną inteligencję, w odpowiedzi na rosnące obawy dotyczące potencjalnego niewłaściwego wykorzystania technologii sztucznej inteligencji w kontekstach politycznych. Podczas niedawnej odprawy Adele Li, liderka produktu OpenAI, podkreśliła proaktywne środki firmy mające na celu zapobieganie ingerencji politycznej poprzez zaawansowane protokoły bezpieczeństwa.

Microsoft przechodzi na GitHub Copilot na model cenowy oparty na tokenach

Zaktualizowany model zawiera funkcje wnioskowania „serii O”, które pozwalają mu badać i rozważać układy przed wygenerowaniem obrazów, zwiększając jego zdolność do tworzenia spójnych zasobów wizualnych do opowiadania historii. Demonstracje pokazały, że model może syntetyzować złożone dokumenty i dokładnie odtwarzać mapy, co oznacza skok w zakresie funkcjonalności w porównaniu z poprzednimi iteracjami.

Funkcje obrazów 2.0 zostały skonstruowane tak, aby obsługiwały typografię o wysokiej wierności i generowanie tekstu wielojęzycznego, rozwiązując długotrwałe problemy związane z obrazami generowanymi przez sztuczną inteligencję. Ta iteracja może zapewnić spójny tekst w pismach innych niż łacińskie, zapewniając lepszą dostępność dla użytkowników na całym świecie.

OpenAI nakreśliło przejrzysty, wielopoziomowy system dostępu na potrzeby wdrożenia. Użytkownicy wersji bezpłatnej będą mieli standardowy dostęp do modelu podstawowego, natomiast użytkownicy Plus i Pro zyskają dostęp do zaawansowanych funkcji, w tym wnioskowania wspomaganego sztuczną inteligencją i możliwości generowania wielu obrazów przy zachowaniu ciągłości z jednego monitu.

Struktura cenowa dla programistów API została obniżona w porównaniu do poprzedniego modelu. Generowanie obrazu kosztuje 8,00 USD za wejście i 30,00 USD za wyjście, podczas gdy generowanie tekstu kosztuje 5,00 USD za dane wejściowe i 10,00 USD za dane wyjściowe. Przejście na ChatGPT Images 2.0 wskazuje, że podejście OpenAI jest nastawione na przyjęcie w przedsiębiorstwach, umożliwiając wykonywanie bardziej złożonych zadań kreatywnych, które mogą ułatwić wyższą produktywność.

Apple zaprezentuje nową, dbającą o prywatność Siri obsługiwaną przez Gemini

W odpowiedzi na rosnącą konkurencję i postęp technologiczny, OpenAI w dalszym ciągu koncentruje się na zwiększaniu bezpieczeństwa i satysfakcji użytkowników, dostarczając jednocześnie najnowocześniejsze narzędzia AI. W miarę ewolucji funkcjonalności ChatGPT Images 2.0 firma dąży do wypełnienia luki w zamierzeniach w tworzeniu dzieł sztuki AI, upewniając się, że spełnia ona zarówno potrzeby użytkowników, jak i standardy etyczne.

Autor wyróżnionego obrazu

OpenAI uruchamia obrazy ChatGPT 2.0 z rozumowaniem serii O

Related Stories

OpenAI zatwierdziło publiczne udostępnienie modeli GPT-5.6 9 lipca

Meta uruchamia narzędzie do wykrywania obrazów generowanych przez sztuczną inteligencję z niewidocznym znakiem wodnym

Claude Cowork może teraz uruchamiać zadania z telefonu

Apple wprowadza bardziej osobistą kontrolę mowy Siri do wersji beta 3