Badacze skutecznie ominęli ograniczenia Apple, umożliwiając im wykonywanie działań kontrolowanych przez osobę atakującą w modelu językowym firmy na urządzeniu poprzez szybki atak polegający na wstrzyknięciu. Od tego czasu Apple ulepszyło swoje zabezpieczenia przed tą luką.

Szczegóły ataku zostały opublikowane w dwóch wpisach na blogu RSAC i zgłoszone przez AppleInsider. Badacze wykorzystali dwie techniki exploitów, aby ominąć filtry wejściowe i wyjściowe zaprojektowane w celu zapobiegania przetwarzaniu szkodliwych treści przez lokalny model Apple.

Badacze zauważyli, że mieli ograniczoną wiedzę na temat procesów filtrowania Apple ze względu na brak ujawnień przez firmę na temat jej wewnętrznego funkcjonowania. Spekulowali, że filtr wejściowy ocenia monity użytkownika pod kątem niebezpiecznych treści; w przypadku wykrycia wywołanie API kończy się niepowodzeniem. Jeśli zachęta zostanie pomyślnie zatwierdzona, zostanie wysłana do modelu, który następnie wygeneruje odpowiedź, która zostanie ponownie przefiltrowana pod kątem niebezpiecznej zawartości.

Aby wykorzystać te procesy, badacze opracowali metodę łączącą dwie techniki manipulowania modelem na urządzeniu. Najpierw przeprowadzili atak Unicode, zapisując szkodliwe ciągi wstecz, wykorzystując znak OVERRIDE OD PRAWEJ DO LEWEJ, aby zapewnić ich prawidłowe renderowanie, jednocześnie zachowując je wstecz w surowym wejściu, omijając w ten sposób filtry.

  Anthropic podnosi szacunkowe dzienne koszty Claude Code o 115%

Następnie zastosowali drugą metodę o nazwie Neural Exec, która pozwoliła im zastąpić instrukcje modelu alternatywnymi poleceniami. Połączenie tych taktyk umożliwiło badaczom kontrolowanie zachowania modelu, skutecznie wykonując exploit w 76% z ponad 100 przetestowanych losowych podpowiedzi.

Atak został ujawniony firmie Apple w październiku 2025 r. W odpowiedzi Apple wdrożył zabezpieczenia przed tą konkretną luką w swoich aktualizacjach oprogramowania, wprowadzając ulepszone zabezpieczenia w systemach iOS 26.4 i macOS 26.4.

Autor wyróżnionego obrazu