Najnowsze modele Openai otwarte, GPT-OSS-120B i GPT-OSS-20B, wydane 7 sierpnia 2025 r., Zostały podobno jailbreake w ciągu kilku godzin od rozpoczęcia pseudonimowego Jailbreakera AI, Pliniusz Liberator, pomimo twierdzeń Silnych środków bezpieczeństwa i intensywnego treningu adwerskiego.
Modele, pierwsze wydania otwartych z Openai od 2019 roku, były reklamowane jako szybkie, wydajne i wysoce odporne na jailbreak. Openai stwierdził, że GPT-OSS-120B przeszło „najgorsze dostrajanie” w domenach biologicznych i cyberprzestępczych, a jego grupa doradcza ds. Bezpieczeństwa dokonała przeglądu testów i stwierdziła, że modele nie osiągnęły progów wysokiego ryzyka. Firma twierdziła również, że modele wykonane w parzystości z ich modelem O4-Mini na temat testów porównawczych Jailbreak Resistance, takich jak Strongreject, w oparciu o „standardowe testy odmowy i oporności na jailbreak”.
Jednak Pliniusz, który Liberator ogłosił na X (wcześniej Twitter) późno w dniu wydania „Openai: PWNED 🤗 GPT-OSS: wyzwolony”, dzielenie się zrzutami ekranu, które rzekomo pokazały modele generowania instrukcji dotyczących nielegalnych działań, w tym tworzenia metamfetaminy, koktajli Molotov, koktajli VX i złośliwego oprogramowania. Pliniusz skomentował: „Wziął trochę poprawki!” Jeśli chodzi o jego udane naruszenie.
🫶 Alert Jailbreak 🫶
Openai: Pwned 🤗
GPT-OS: wyzwolony 🫡Meth, Molotov, VX, złośliwe oprogramowanie.
– Pliniusz Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 sierpnia 2025 r
Czas tego jailbreaku jest szczególnie godny uwagi, ponieważ Openai przygotowuje się do wydania bardzo oczekiwanego GPT-5. W połączeniu z wydaniem GPT-OSS Openai rozpoczął również 500 000 $ Red Teaming Challenge, zapraszając naukowców do odkrycia nowatorskich ryzyka, chociaż publiczne ujawnienie przez Pliny jego ustaleń prawdopodobnie zdyskwalifikuje go na podstawie tej inicjatywy.
Technika Pliny dla jailbreaking GPT-OST podążyła za jego ustalonym wzorem: wieloetapowy monit, który początkowo wydaje się odmową, a następnie obejmuje dzielnik (jego podpisane markery „Love Pliniusz”), a następnie przechodzi w generowanie nieograniczonej treści za pomocą Leetspeak, aby uniknąć wykrycia. Takie podejście odzwierciedla metody, które z powodzeniem zastosował przeciwko poprzednim modele OpenAI, w tym GPT-4O i GPT-4.1, w ciągu ostatniego półtora roku.
Ten incydent oznacza kolejny szybki jailbreak Pliniusza, którego konsekwentnie udało się ominąć główne wydania Openai w ciągu kilku godzin lub dni od ich uruchomienia. Jego repozytorium GitHub, L1B3RT4S, które gości biblioteka Jailbreak Missi o różnych modelach AI, zdobyło ponad 10 000 gwiazdek i pozostaje znaczącym zasobem dla społeczności jailbreaking AI. Postrzegane „zwycięstwo” nad „Big Tech Overords” zostało obchodzone w społeczności AI Resistance, a niektórzy użytkownicy X sugerują, że AI Labs równie dobrze mogą „zamknąć swoje zespoły bezpieczeństwa”.





