W zeszłym tygodniu miliony komputerów z systemem Windows zostały unieruchomione z powodu wadliwej aktualizacji z CrowdStrike. Incydent, który dotknął około 8,5 miliona urządzeń, został powiązany z błędem w oprogramowaniu testowym.

Wadliwa aktualizacja prześlizgnęła się przez proces walidacji, co doprowadziło do powszechnych awarii. Ten problem CrowdStrike skłonił firmę do zobowiązania się do bardziej rygorystycznych testów i ulepszonego obsługi błędów w przyszłych aktualizacjach.

Kurs przyspieszony na temat problemu CrowdStrike
Ta aktualizacja była częścią zawartości Rapid Response, niewielkiego pliku o rozmiarze 40 KB, który nie działał prawidłowo i powodował liczne awarie systemu (Źródło obrazu)

Problem z CrowdStrike spowodował awarię Microsoftu

Najnowsza katastrofa CrowdStrike’a nie jest odosobnionym przypadkiem Problem z CrowdStrike; rezonuje z szerszymi wyzwaniami branży technologicznej. Microsoft również doznał z tego powodu poważnej awarii, która spotęgowała chaos do tego stopnia, że ​​dotknęła kraje. Podczas gdy korzenie awarii Microsoftu były inne, równoczesne problemy uwypukliły kruchość usług w chmurze i skutki uboczne awarii oprogramowania. Ostatecznie, problem CrowdStrike był wyzwalaczem. Takie incydenty podkreślają potrzebę solidnych procesów testowania i walidacji w każdej domenie.

Czym jest awaria CrowdStrike?

Oprogramowanie Falcon firmy CrowdStrike jest kluczowym narzędziem dla firm i zapewnia solidną ochronę przed złośliwym oprogramowaniem i naruszeniami bezpieczeństwa na milionach komputerów z systemem Windows. Problem z CrowdStrike pojawił się, gdy rutynowa aktualizacja konfiguracji treści, której celem było zebranie danych telemetrycznych o potencjalnych zagrożeniach, zamiast tego spowodowała katastrofalną awarię. Ta aktualizacja była częścią Rapid Response Content, małego pliku o rozmiarze 40 KB, który nie działał poprawnie i doprowadził do powszechnych awarii systemu. Wygląda to jak stare wirusy. To tak, jakby mieć „Osioł” dźwięk i niekończący się strumień komunikatów ostrzegawczych, które nic nie mówią, a komputer mimowolnie się wyłącza.

  W krajach z zakazem TikTok VPN mogą być rozwiązaniem
Kurs przyspieszony na temat problemu CrowdStrike
Problem z CrowdStrike można powiązać z błędnym założeniem co do niezawodności ich narzędzia do weryfikacji treści (Źródło obrazu)

Anatomia awarii

Problem CrowdStrike był powiązany z Rapid Response Content, który zaktualizował czujnik Falcon w celu poprawy wykrywania złośliwego oprogramowania. Ta konkretna aktualizacja zawierała problematyczne dane o treści, które udało się przejść przez Content Verifier z powodu błędu. CrowdStrike twierdzi, że zwykle przeprowadza zarówno automatyczne, jak i ręczne testy swoich aktualizacji. Jednak Quick Response Content nie został poddany tak dokładnym testom jak inne aktualizacje lub jakoś udało mu się przejść test, co doprowadziło do katastrofalnej awarii.

Jak to się stało, że wszystko poszło nie tak?

Problem z CrowdStrike można prześledzić do błędnego założenia dotyczącego niezawodności ich Content Validator. W marcu nowe wdrożenie Template Types sprawiło, że CrowdStrike uwierzyło, że ich proces walidacji jest niezawodny. Jednak ta pewność okazała się nieuzasadniona. Problematyczna Rapid Response Content została załadowana do Content Interpreter czujnika, co wywołało wyjątek poza zakresem pamięci, którego system Windows nie mógł obsłużyć, co doprowadziło do niesławnego Blue Screen of Death (BSOD).

Kurs przyspieszony na temat problemu CrowdStrike
CrowdStrike szybko zidentyfikował problematyczny plik Rapid Response Content jako źródło problemu (Źródło obrazu)

Kiedy zaczęła się awaria CrowdStrike? Oś czasu problemu

Problem z CrowdStrike wybuchł w piątek, dzień, w którym firmy zazwyczaj kończą działalność na weekend. Ten moment nie mógł być gorszy, ponieważ doprowadził do natychmiastowych zakłóceń w wielu organizacjach. Wadliwa aktualizacja, mająca na celu zwiększenie bezpieczeństwa, zamiast tego sparaliżowała systemy, powodując znaczne przestoje i frustrację.

  Jak korzystać z napisów na żywo w iOS 16?

Pierwsza reakcja i kontrola szkód

CrowdStrike szybko zidentyfikował problematyczny plik Rapid Response Content jako źródło problemu. Pomimo szybkiej identyfikacji szkody zostały już wyrządzone. Firmy polegające na CrowdStrike Falcon musiały się spieszyć, aby złagodzić skutki katastrofy. Pilność sytuacji skłoniła CrowdStrike do opublikowania szczegółowego przeglądu po incydencie (PIR), przedstawiającego przyczynę źródłową i plan zapobiegania przyszłym zdarzeniom.

Zobowiązania do zapobiegania przyszłym problemom

W odpowiedzi na problem CrowdStrike firma obiecała kilka środków, aby zapewnić, że taka katastrofa się nie powtórzy. Obejmują one:

  • Ulepszone testowanie:Wdrażanie lokalnych testów dla programistów, testów aktualizacji i wycofywania treści, testów obciążeniowych, testów nieprecyzyjnych i wstrzykiwania błędów.
  • Ulepszona obsługa błędów:Poprawa możliwości obsługi błędów przez interpreter treści w czujniku Falcon.
  • Wdrażanie etapowe:Stopniowe wdrażanie aktualizacji na większej części bazy instalacyjnej zamiast natychmiastowego wypychania.
Kurs przyspieszony na temat problemu CrowdStrike
Problem CrowdStrike jest jaskrawym przypomnieniem o znaczeniu solidnych procesów testowania i walidacji (Źródło obrazu)

Czym jest CrowdStrike Falcon? Obrońca w pytaniu

CrowdStrike Falcon to oprogramowanie stanowiące sedno tego problemu. Jest to oparta na chmurze platforma, która zapewnia ochronę punktów końcowych, łącząca oprogramowanie antywirusowe, inteligencję zagrożeń oraz wykrywanie i reagowanie na punkty końcowe (EDR). Podstawową funkcją oprogramowania jest ochrona przed złośliwym oprogramowaniem i naruszeniami bezpieczeństwa, co czyni je kluczowym narzędziem dla firm na całym świecie.

Jak działa Falcon

Falcon działa poprzez wdrażanie czujników na poziomie jądra w maszynach z systemem Windows. Te czujniki stale monitorują podejrzaną aktywność i wykorzystują sztuczną inteligencję oraz uczenie maszynowe w celu zwiększenia możliwości wykrywania. Aktualizacje tych czujników, takie jak Rapid Response Content, są kluczowe dla utrzymania aktualnej ochrony przed pojawiającymi się zagrożeniami.

  Getir zabezpiecza fundusze o wartości ponad 550 mln USD i rozszerza działalność na Stany Zjednoczone

Rola treści szybkiego reagowania

Aktualizacje Rapid Response Content mają na celu dostosowanie zachowania czujników Falcon, umożliwiając im wykrywanie nowych form złośliwego oprogramowania. Te aktualizacje są zazwyczaj niewielkie i szybko wdrażane, co czyni je istotną częścią funkcjonalności Falcon. Jednak problem CrowdStrike pokazał potencjalne ryzyko, gdy te aktualizacje nie są dokładnie sprawdzane.

Lekcje z problemu CrowdStrike

Problem CrowdStrike jest jaskrawym przypomnieniem o znaczeniu solidnych procesów testowania i walidacji. Podczas gdy firma przedstawiła kilka środków zapobiegających przyszłym incydentom, społeczność technologiczna niewątpliwie będzie się temu uważnie przyglądać. Zapewnienie niezawodności oprogramowania zabezpieczającego jest najważniejsze, a problem CrowdStrike uwypuklił stawkę, o jaką toczy się gra.

Problem CrowdStrike podkreśla delikatną równowagę między szybkimi aktualizacjami a stabilnością systemu. Ponieważ firmy nadal polegają w dużym stopniu na takim oprogramowaniu w zakresie bezpieczeństwa, wnioski wyciągnięte z tego incydentu będą miały kluczowe znaczenie dla kształtowania przyszłych praktyk i protokołów.


Źródło wyróżnionego obrazu: Grupa wiadomości Scoop

Source: Kurs przyspieszony na temat problemu CrowdStrike