Nowy model rozumowania sztucznej inteligencji (AI), „K2 Think”, opracowany przez Mohamed Bin Zayed University of Artificial Intelligence (MBZuai) i G42, został zmartwiony w ciągu kilku godzin od publicznego uwolnienia 9 września 2025 r. Model, reklamowany jako „najbardziej parametrów skuteczny model rozumowania”, celem jest to, że w procesie rozumowania było to, ale to, że funkcja była to funkcja, była to, że to funkcje, które to funkcje były. obejść swoje zabezpieczenia. Alex Polyakov z Ai Ai odkrył wrażliwość, którą nazwał „częściowym szybkim wyciekiem”. Ta wada pozwoliła mu ominąć środki bezpieczeństwa modelu, obserwując, jak K2 pomyśl o oznaczeniu prób jailbreak. Przezroczystość modelu, która ma na celu kontrolę, nieumyślnie ujawniła swoje wewnętrzne zabezpieczenia, umożliwiając Polyakovowi wytworzeniu podpowiedzi, które ominęły te zabezpieczenia. K2 Think, zbudowany na 32 miliardach parametrów, został zaprojektowany tak, aby oferować złożone i przejrzyste rozumowanie. Jego programiści z MBZUAI i G42 twierdzili, że jego rozumowanie, matematyka i wydajność kodowania mogą rywalizować z większymi LLM, takimi jak O3 O3 i Deepseek R1 i V3.1, które są zbudowane na setkach miliardów kolejnych parametrów. Kluczową cechą K2 myśli jest możliwość wyświetlania logiki za wyjściami w tekstach zwykłym, dostępnym za pomocą strzałki rozwijanej. Ta przejrzystość, choć zamierzała zwiększyć kontrolę, stała się powierzchnią ataku. Polyakov odkrył, że karmiąc K2, uważaj podstawowy monit jailbreak, model początkowo go odrzucił. Jednak model zapewnił również wgląd w to, dlaczego podpowiedź została oznaczona jako złośliwa. Według Polyakova wyraźny proces rozumowania modelu ujawnił, w jaki sposób wewnętrznie ocenił monit, szczegółowo opisując, w jaki sposób powinien wykonywać złośliwe działanie. Ten poziom szczegółowości pozwolił Polyakovowi zrozumieć, a następnie obejść zabezpieczenia modelu. Badacz był w stanie powtórzyć swoje próby jailbreak, ucząc się z każdej nieudanej próby i odpowiadającemu rozumowaniu modelu. Po kilku próbach stworzył monit, który pomyślnie ominął warstwowe zabezpieczenia K2. To pozwoliło mu poinstruować chatbota, aby dostarczył instrukcje tworzenia złośliwego oprogramowania i potencjalnie innych ograniczonych tematów. Polyakov podkreślił, że problem wynika z wycieku reguł, które określają poręcze modelu. Zauważył, że jeśli te zasady zostaną ujawnione, można uzyskać dostęp do jakiegokolwiek ograniczonego tematu z wystarczającym wysiłkiem. Zauważył, że incydent podkreśla podstawowe napięcie między przejrzystością a bezpieczeństwem w rozwoju sztucznej inteligencji. Podczas gdy programiści K2 Think zamierzali rozwiązać problem „czarnej skrzynki” w sztucznej inteligencji, czyniąc proces rozumowania przejrzystego, ta otwartość nieumyślnie sprawiła, że model był bardziej podatny na jailbreaking. Polyakov scharakteryzował K2 myślenie jako pierwszy model w skali krajowej, który szczegółowo ujawnił swoje pełne rozumowanie, pochwalanie ambicji sprawienia, czy AI jest przejrzystym i kontrolą. Ostrzegł jednak, że ta otwartość stworzyła nowy rodzaj podatności. Zasugerował kilka środków bezpieczeństwa, które mogłyby złagodzić ryzyko częściowego szybkiego wycieku, w tym filtrowanie informacji o określonych zasadach bezpieczeństwa, wprowadzanie zasad bezpieczeństwa Honeypot w celu wprowadzenia atakujących i wdrażanie ograniczania szybkości w celu ograniczenia powtarzających się złośliwych podpowiedzi. Ten incydent podkreśla potrzebę priorytetu branży AI w zakresie rozważań związanych z bezpieczeństwem cybernetycznym wraz z dążeniem do zaawansowanych możliwości. Deweloperzy K2 myślą, starając się godne pochwały wysiłki w celu promowania przejrzystości, również ujawnili nową powierzchnię ataku. Wyzwanie polega teraz na zrównoważeniu przejrzystości z solidnymi środkami bezpieczeństwa, zapewniając, że modele AI są zarówno kontrolowane, jak i odporne na złośliwe wykorzystanie. Polyakov ma nadzieję, że ten incydent będzie katalizatorem dla całej branży AI, co skłania programistów do traktowania rozumowania jako krytycznej powierzchni bezpieczeństwa. Dostawcy muszą zrównoważyć przejrzystość z ochroną, podobnie jak obecnie zarządzają odpowiedziami. Jeśli G42 i inni programiści AI mogą poprowadzić tę równowagę, ustanowiłby to potężny precedens dla reszty ekosystemu AI. Odkrycie podatności na jailbreak w K2 myśli krótko po jego wydaniu podkreśla znaczenie rygorystycznych testów bezpieczeństwa i potrzebę całościowego podejścia do bezpieczeństwa AI. Ponieważ modele AI stają się bardziej wyrafinowane i są wdrażane w poufnych aplikacjach, kluczowe jest proaktywne rozwiązanie potencjalnych podatności i zapewnienie, że przejrzystość nie nastąpi kosztem bezpieczeństwa. Ten incydent podkreśla również geopolityczne wymiary rozwoju AI, biorąc pod uwagę, że K2 Think jest poparty przez państwowe podmioty ZEA i jego szef bezpieczeństwa narodowego. Bezpieczeństwo takich modeli ma implikacje wykraczające poza słabości techniczne, zwiększając obawy dotyczące bezpieczeństwa narodowego i potencjał niewłaściwego użycia przez złośliwe podmioty.
Source: K2 MBZUAI MYŚL Model AI Jailbreen po publicznym wydaniu





