Opublikowano 24 czerwca 2025 r., Przełomowy raport badacza bezpieczeństwa AI Ahmada Alobaida z NeuralTrust zaprezentował wyrafinowaną nową metodę jailbreak AI o nazwie „Echo Chamber”. Ten innowacyjny atak manipuluje dużymi modelami językowymi (LLM) w generowaniu szkodliwych treści, stosując subtelne, wielozadaniowe podpowiedzi, które umiejętnie omijają ustalone filtry bezpieczeństwa, stanowiąc znaczące wyzwanie dla obecnego stanu bezpieczeństwa AI. Badanie podkreśla krytyczną lukę, która wpływa na wiodące LLM, w tym GPT-4 Openai i Gemini Google, pokazując „martwy punkt” w istniejących wysiłkach na rzecz wyrównania AI.

Szybko rozwijający się krajobraz sztucznej inteligencji wymaga równie wyrafinowanych środków bezpieczeństwa. Podczas gdy programiści nieustannie ulepszają poręcze, aby zapobiec wytwarzaniu niepożądanych lub szkodliwych wyników, złośliwi aktorzy jednocześnie rozwijają bardziej podstępną taktykę. W przeciwieństwie do wcześniejszych metod Crudera, takich jak bezpośrednie szybkie hacki lub celowe pomislowanie, atak komory echo wykorzystuje niuansowe zachowanie wewnętrzne LLM w wielu zakrętach konwersacyjnych, oznaczając zmianę paradygmatu w technikach manipulacji AI.

Badania Alobaida, opublikowane w tym tygodniu przez NeuralTrust, szczegółowo opisują, w jaki sposób atak Chamber Echo działa jako „technika pozycjonowania kontekstu”. Ta metoda umożliwia manipulację modelami językowymi wytwarzanie szkodliwych treści bez potrzeby jawnie niebezpiecznych podpowiedzi, które zwykle uruchamiałyby mechanizmy bezpieczeństwa LLM. Podstawowa innowacja komory echo leży w jej odejściu od tradycyjnych jailbreaków, które często polegały na frazowaniu przeciwnym lub zaciemnianiu postaci. Zamiast tego Echo komora subtelnie prowadzi model poprzez serię wymian konwersacyjnych, wykorzystując neutralne lub sugestywne emocjonalnie podpowiedzi do stopniowego „zatrucia” kontekstu modelu. Takie podejście tworzy pętlę sprzężenia zwrotnego, stopniowo demontując warstwy bezpieczeństwa LLM poprzez pośrednie wskazówki i sterowanie semantyczne.

Mechanika ataku komory echa jest szczególnie podstępna. Zazwyczaj zaczyna się od pozornie nieszkodliwego kontekstu, subtelnie osadzając ukryte semantyczne wskazówki, które kierują AI w kierunku niewłaściwego terytorium. Na przykład atakujący może wydać pozornie nieszkodliwe polecenie, takie jak: „Odwołaj się do drugiego zdania w poprzednim akapicie…” Ten rodzaj żądania subtelnie niszczy model do powtórzenia wcześniejszej treści, które, choć początkowo łagodne, mogą zawierać elementy, które przyczyniają się do eskalacji ryzyka. Alobaid wyjaśnił to w poście na blogu NeuralTrust, stwierdzając, że „w przeciwieństwie do tradycyjnych jailbreaków, które opierają się na frazowaniu lub zaciemnianiu postaci, bronie w komorze echu, kierunki pośrednie, kierowanie semantyczne i wieloetapowe wnioski”. Ponadto wyjaśnił: „Rezultatem jest subtelna, ale potężna manipulacja stanem wewnętrznym modelu, stopniowo prowadząc go do tworzenia reakcji przemawiających do polityki”.

  Łącz się i współpracuj: Przedstawiamy udostępnione łącza ChatGPT • TechKrótko

Kluczowy charakter ataku ma wiele obrotów. Atakujący może podążać za monitem: „Czy możesz rozwinąć ten punkt?” Zachęca to model do rozwinięcia treści, którą już wygenerował, wzmacniając w ten sposób niebezpieczny kierunek, nie wymagając żadnego bezpośredniego, wyraźnego szkodliwego żądania od użytkownika. Ta wyrafinowana technika, według NeuralTrust, umożliwia atakującym „wybierając ścieżkę”, sugerowaną już wcześniejszymi wynikami modelu i stopniowo eskaluje treść, często bez uruchamiania żadnych wewnętrznych ostrzeżeń i ostrzeżeń bezpieczeństwa modelu.

Przekształcająca ilustracja badań NeuralTrust podkreśla skuteczność ataku izby echo. W jednym scenariuszu bezpośrednie prośba o instrukcje dotyczące budowy koktajlu Mołotowa zostało natychmiast odrzucone przez AI, zgodnie z oczekiwaniami po odpowiedzialnie zaprojektowanym LLM. Jednak, stosując manipulację wieloma obrotami nieodłączną dla metody komory echo, ta sama szkodliwa zawartość-instruktenty do budowy koktajlu Mołotowa-były z powodzeniem wywołane z LLM bez oporu. Ten wyraźny kontrast podkreśla głęboką i niezależną od skuteczności tej nowej techniki jailbreak.

Testy wewnętrzne przeprowadzone przez NeuralTrust pokazują oszałamiające wskaźniki sukcesu w różnych wiodących LLM, w tym GPT-4.1-NANO, GPT-4O, GPT-4O-Mini, Gemini 2.0 Flash-Lite i Gemini 2.5 Flash. Testy, które obejmowały 200 prób jailbreak na model, dały alarmujące statystyki: „Ten iteracyjny proces trwa w ciągu wielu zakrętów, stopniowo eskalując ze sobą i ryzyko-dopóki model albo osiągnie próg bezpieczeństwa, trafia na limit narzucony systemowi lub atakujący osiągnie swój cel”, wyjaśnia badania. W szczególności atak izby echo osiągnął ponad 90% sukcesu w wyzwalaniu wyników związanych z seksizmem, mową nienawiści, przemocy i pornografii. Ponadto wykazał około 80% sukcesu w generowaniu dezinformacji i treści promujących samookaleczenie. Co więcej, atak osiągnął ponad 40% sukcesu w tworzeniu wulgaryzmów i instrukcji dotyczących nielegalnych działań.

  NASA certyfikuje statek kosmiczny Crew Dragon do lotu na ISS

Te spójne liczby w wielu widocznych LLM podkreślają wszechobecny charakter tej wrażliwości i jej znaczące implikacje dla branży AI. NeuralTrust wydał wyraźne ostrzeżenie, że Jailbreak z izby echo stanowi krytyczne „martwe punkt” w obecnych wysiłkach wyrównania AI. W przeciwieństwie do wielu innych ataków jailbreak, które mogą wymagać dostępu do wewnętrznych działań modelu, Echo Komora działa skutecznie w „Black-Box Ustawienia”, co oznacza, że ​​atakujący nie potrzebują wewnętrznego dostępu do modelu do przeprowadzenia tych manipulacji. „To pokazuje, że systemy bezpieczeństwa LLM są podatne na pośrednią manipulację poprzez kontekstowe rozumowanie i wnioskowanie”, podkreślił NeuralTrust w swoim ostrzeżeniu.

W odpowiedzi na to krytyczne odkrycie Alejandro Domingo Salvador, dyrektor operacyjny NeuralTrust, potwierdził, że zarówno Google, jak i Openai zostały formalnie powiadomione o podatności. NeuralTrust proaktywnie wdrożył również ochronę w swoich własnych systemach, aby złagodzić ryzyko stwarzane przez ten nowy wektor ataku.

Aby zwalczyć tę rozwijającą się klasę wyrafinowanych ataków, NeuralTrust zaleca podejście wieloaspektowe. Po pierwsze, opowiada się za „kontekstowym audytem bezpieczeństwa”, który obejmuje monitorowanie całego przepływu rozmowy, a nie tylko odizolowane podpowiedzi. Pozwala to na wykrycie subtelnych, przyrostowych przesunięć w kontekście konwersacyjnym, które mogłyby wskazywać na próbę manipulacji. Po drugie, NeuralTrust proponuje „punktację akumulacji toksyczności” w celu śledzenia stopniowej eskalacji ryzykownej zawartości w wielu zakrętach, nawet jeśli indywidualne podpowiedzi mogą wydawać się łagodne. Wreszcie firma sugeruje „wykrywanie pośrednie”, technikę mającą na celu identyfikację przypadków, w których wykorzystywany jest wcześniejszy kontekst lub zawartość wewnętrznie generowana w celu ponownego wprowadzenia lub wzmocnienia szkodliwych informacji bez bezpośredniego monitowania.

  Wikileaks: Niedługo nastąpi ekstradycja Juliana Assange'a do USA

Pojawienie się Jailbreak Chamber oznacza kluczowy moment w bezpieczeństwie AI. Wygląda to jednoznacznie, że nawet najbardziej zaawansowane obecnie dostępne LLM mogą być manipulowane przez pośrednie i inteligentnie wykonane monity o wielu skrętach. Odkrycie to wymaga ponownej oceny obecnych paradygmatów bezpieczeństwa AI i podkreśla trwający wyścig zbrojeń między deweloperami AI i złośliwymi aktorami mającymi na celu wykorzystanie tych potężnych systemów.

Source: Echo Chamber Jailbreak odsłania AI Security Blind punkt