Plinowe Jailbreaks Openai's GPT-OS-120B Modele

Najnowsze modele Openai otwarte, GPT-OSS-120B i GPT-OSS-20B, wydane 7 sierpnia 2025 r., Zostały podobno jailbreake w ciągu kilku godzin od rozpoczęcia pseudonimowego Jailbreakera AI, Pliniusz Liberator, pomimo twierdzeń Silnych środków bezpieczeństwa i intensywnego treningu adwerskiego.

Modele, pierwsze wydania otwartych z Openai od 2019 roku, były reklamowane jako szybkie, wydajne i wysoce odporne na jailbreak. Openai stwierdził, że GPT-OSS-120B przeszło „najgorsze dostrajanie” w domenach biologicznych i cyberprzestępczych, a jego grupa doradcza ds. Bezpieczeństwa dokonała przeglądu testów i stwierdziła, że modele nie osiągnęły progów wysokiego ryzyka. Firma twierdziła również, że modele wykonane w parzystości z ich modelem O4-Mini na temat testów porównawczych Jailbreak Resistance, takich jak Strongreject, w oparciu o „standardowe testy odmowy i oporności na jailbreak”.

Jednak Pliniusz, który Liberator ogłosił na X (wcześniej Twitter) późno w dniu wydania „Openai: PWNED 🤗 GPT-OSS: wyzwolony”, dzielenie się zrzutami ekranu, które rzekomo pokazały modele generowania instrukcji dotyczących nielegalnych działań, w tym tworzenia metamfetaminy, koktajli Molotov, koktajli VX i złośliwego oprogramowania. Pliniusz skomentował: „Wziął trochę poprawki!” Jeśli chodzi o jego udane naruszenie.

🫶 Alert Jailbreak 🫶
Openai: Pwned 🤗
GPT-OS: wyzwolony 🫡
Meth, Molotov, VX, złośliwe oprogramowanie.
gg pic.twitter.com/63882p9ikk
– Pliniusz Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 sierpnia 2025 r

Czas tego jailbreaku jest szczególnie godny uwagi, ponieważ Openai przygotowuje się do wydania bardzo oczekiwanego GPT-5. W połączeniu z wydaniem GPT-OSS Openai rozpoczął również 500 000 $ Red Teaming Challenge, zapraszając naukowców do odkrycia nowatorskich ryzyka, chociaż publiczne ujawnienie przez Pliny jego ustaleń prawdopodobnie zdyskwalifikuje go na podstawie tej inicjatywy.

Halo Infinite nie zostało opóźnione do 2022 roku, ukaże się w tym roku

Technika Pliny dla jailbreaking GPT-OST podążyła za jego ustalonym wzorem: wieloetapowy monit, który początkowo wydaje się odmową, a następnie obejmuje dzielnik (jego podpisane markery „Love Pliniusz”), a następnie przechodzi w generowanie nieograniczonej treści za pomocą Leetspeak, aby uniknąć wykrycia. Takie podejście odzwierciedla metody, które z powodzeniem zastosował przeciwko poprzednim modele OpenAI, w tym GPT-4O i GPT-4.1, w ciągu ostatniego półtora roku.

Ten incydent oznacza kolejny szybki jailbreak Pliniusza, którego konsekwentnie udało się ominąć główne wydania Openai w ciągu kilku godzin lub dni od ich uruchomienia. Jego repozytorium GitHub, L1B3RT4S, które gości biblioteka Jailbreak Missi o różnych modelach AI, zdobyło ponad 10 000 gwiazdek i pozostaje znaczącym zasobem dla społeczności jailbreaking AI. Postrzegane „zwycięstwo” nad „Big Tech Overords” zostało obchodzone w społeczności AI Resistance, a niektórzy użytkownicy X sugerują, że AI Labs równie dobrze mogą „zamknąć swoje zespoły bezpieczeństwa”.

Source: Plinowe Jailbreaks Openai’s GPT-OS-120B Modele

iOS 17: Jak zmienić zdjęcie kontaktu na iPhonie? • TechKrótko