W zeszłym tygodniu miliony komputerów z systemem Windows zostały unieruchomione z powodu wadliwej aktualizacji z CrowdStrike. Incydent, który dotknął około 8,5 miliona urządzeń, został powiązany z błędem w oprogramowaniu testowym.
Wadliwa aktualizacja prześlizgnęła się przez proces walidacji, co doprowadziło do powszechnych awarii. Ten problem CrowdStrike skłonił firmę do zobowiązania się do bardziej rygorystycznych testów i ulepszonego obsługi błędów w przyszłych aktualizacjach.
Problem z CrowdStrike spowodował awarię Microsoftu
Najnowsza katastrofa CrowdStrike’a nie jest odosobnionym przypadkiem Problem z CrowdStrike; rezonuje z szerszymi wyzwaniami branży technologicznej. Microsoft również doznał z tego powodu poważnej awarii, która spotęgowała chaos do tego stopnia, że dotknęła kraje. Podczas gdy korzenie awarii Microsoftu były inne, równoczesne problemy uwypukliły kruchość usług w chmurze i skutki uboczne awarii oprogramowania. Ostatecznie, problem CrowdStrike był wyzwalaczem. Takie incydenty podkreślają potrzebę solidnych procesów testowania i walidacji w każdej domenie.
Czym jest awaria CrowdStrike?
Oprogramowanie Falcon firmy CrowdStrike jest kluczowym narzędziem dla firm i zapewnia solidną ochronę przed złośliwym oprogramowaniem i naruszeniami bezpieczeństwa na milionach komputerów z systemem Windows. Problem z CrowdStrike pojawił się, gdy rutynowa aktualizacja konfiguracji treści, której celem było zebranie danych telemetrycznych o potencjalnych zagrożeniach, zamiast tego spowodowała katastrofalną awarię. Ta aktualizacja była częścią Rapid Response Content, małego pliku o rozmiarze 40 KB, który nie działał poprawnie i doprowadził do powszechnych awarii systemu. Wygląda to jak stare wirusy. To tak, jakby mieć „Osioł” dźwięk i niekończący się strumień komunikatów ostrzegawczych, które nic nie mówią, a komputer mimowolnie się wyłącza.
Anatomia awarii
Problem CrowdStrike był powiązany z Rapid Response Content, który zaktualizował czujnik Falcon w celu poprawy wykrywania złośliwego oprogramowania. Ta konkretna aktualizacja zawierała problematyczne dane o treści, które udało się przejść przez Content Verifier z powodu błędu. CrowdStrike twierdzi, że zwykle przeprowadza zarówno automatyczne, jak i ręczne testy swoich aktualizacji. Jednak Quick Response Content nie został poddany tak dokładnym testom jak inne aktualizacje lub jakoś udało mu się przejść test, co doprowadziło do katastrofalnej awarii.
Jak to się stało, że wszystko poszło nie tak?
Problem z CrowdStrike można prześledzić do błędnego założenia dotyczącego niezawodności ich Content Validator. W marcu nowe wdrożenie Template Types sprawiło, że CrowdStrike uwierzyło, że ich proces walidacji jest niezawodny. Jednak ta pewność okazała się nieuzasadniona. Problematyczna Rapid Response Content została załadowana do Content Interpreter czujnika, co wywołało wyjątek poza zakresem pamięci, którego system Windows nie mógł obsłużyć, co doprowadziło do niesławnego Blue Screen of Death (BSOD).
Kiedy zaczęła się awaria CrowdStrike? Oś czasu problemu
Problem z CrowdStrike wybuchł w piątek, dzień, w którym firmy zazwyczaj kończą działalność na weekend. Ten moment nie mógł być gorszy, ponieważ doprowadził do natychmiastowych zakłóceń w wielu organizacjach. Wadliwa aktualizacja, mająca na celu zwiększenie bezpieczeństwa, zamiast tego sparaliżowała systemy, powodując znaczne przestoje i frustrację.
Pierwsza reakcja i kontrola szkód
CrowdStrike szybko zidentyfikował problematyczny plik Rapid Response Content jako źródło problemu. Pomimo szybkiej identyfikacji szkody zostały już wyrządzone. Firmy polegające na CrowdStrike Falcon musiały się spieszyć, aby złagodzić skutki katastrofy. Pilność sytuacji skłoniła CrowdStrike do opublikowania szczegółowego przeglądu po incydencie (PIR), przedstawiającego przyczynę źródłową i plan zapobiegania przyszłym zdarzeniom.
Zobowiązania do zapobiegania przyszłym problemom
W odpowiedzi na problem CrowdStrike firma obiecała kilka środków, aby zapewnić, że taka katastrofa się nie powtórzy. Obejmują one:
- Ulepszone testowanie:Wdrażanie lokalnych testów dla programistów, testów aktualizacji i wycofywania treści, testów obciążeniowych, testów nieprecyzyjnych i wstrzykiwania błędów.
- Ulepszona obsługa błędów:Poprawa możliwości obsługi błędów przez interpreter treści w czujniku Falcon.
- Wdrażanie etapowe:Stopniowe wdrażanie aktualizacji na większej części bazy instalacyjnej zamiast natychmiastowego wypychania.
Czym jest CrowdStrike Falcon? Obrońca w pytaniu
CrowdStrike Falcon to oprogramowanie stanowiące sedno tego problemu. Jest to oparta na chmurze platforma, która zapewnia ochronę punktów końcowych, łącząca oprogramowanie antywirusowe, inteligencję zagrożeń oraz wykrywanie i reagowanie na punkty końcowe (EDR). Podstawową funkcją oprogramowania jest ochrona przed złośliwym oprogramowaniem i naruszeniami bezpieczeństwa, co czyni je kluczowym narzędziem dla firm na całym świecie.
Jak działa Falcon
Falcon działa poprzez wdrażanie czujników na poziomie jądra w maszynach z systemem Windows. Te czujniki stale monitorują podejrzaną aktywność i wykorzystują sztuczną inteligencję oraz uczenie maszynowe w celu zwiększenia możliwości wykrywania. Aktualizacje tych czujników, takie jak Rapid Response Content, są kluczowe dla utrzymania aktualnej ochrony przed pojawiającymi się zagrożeniami.
Rola treści szybkiego reagowania
Aktualizacje Rapid Response Content mają na celu dostosowanie zachowania czujników Falcon, umożliwiając im wykrywanie nowych form złośliwego oprogramowania. Te aktualizacje są zazwyczaj niewielkie i szybko wdrażane, co czyni je istotną częścią funkcjonalności Falcon. Jednak problem CrowdStrike pokazał potencjalne ryzyko, gdy te aktualizacje nie są dokładnie sprawdzane.
Departament i Agencja ds. Cyberbezpieczeństwa i Bezpieczeństwa Infrastruktury (@CISAgov) współpracuje z firmami CrowdStrike, Microsoft oraz naszymi partnerami z sektora infrastruktury federalnej, stanowej, lokalnej i krytycznej, aby kompleksowo ocenić i rozwiązać problemy związane z przerwami w działaniu systemów.
— Bezpieczeństwo wewnętrzne (@DHSgov) 19 lipca 2024 r.
Lekcje z problemu CrowdStrike
Problem CrowdStrike jest jaskrawym przypomnieniem o znaczeniu solidnych procesów testowania i walidacji. Podczas gdy firma przedstawiła kilka środków zapobiegających przyszłym incydentom, społeczność technologiczna niewątpliwie będzie się temu uważnie przyglądać. Zapewnienie niezawodności oprogramowania zabezpieczającego jest najważniejsze, a problem CrowdStrike uwypuklił stawkę, o jaką toczy się gra.
Problem CrowdStrike podkreśla delikatną równowagę między szybkimi aktualizacjami a stabilnością systemu. Ponieważ firmy nadal polegają w dużym stopniu na takim oprogramowaniu w zakresie bezpieczeństwa, wnioski wyciągnięte z tego incydentu będą miały kluczowe znaczenie dla kształtowania przyszłych praktyk i protokołów.
Źródło wyróżnionego obrazu: Grupa wiadomości Scoop
Source: Kurs przyspieszony na temat problemu CrowdStrike