Sprawdzanie statusu AWS: praktyczny przewodnik po tym, jak utrzymać kontrolę

  • Określ priorytet AWS Health Dashboard według regionu i uzupełnij go o dane z witryny status.aws.amazon.com oraz źródła kontekstowe.
  • Przechwytuj zdarzenia dotyczące stanu zdrowia za pomocą EventBridge i automatyzuj odpowiedzi dzięki CloudWatch i Auto Scaling.
  • Monitoruj odnowienia w ACM (RenewalStatus) i reaguj na powiadomienia przed ich wygaśnięciem.
  • Interpretuje sprawdzenia EC2 (system, instancja, EBS) i definiuje działania w przypadku awarii.

Sprawdź status AWS

Jeśli chodzi o sprawdzenie, czy AWS radzi sobie dobrze, czy też przeżywa kryzys, nie wystarczy po prostu spojrzeć na zielone lub czerwone światło: Musisz przejść przez panel zdrowia, sygnały w czasie rzeczywistym i szczegółowe przeglądy swoich zasobówDzięki takiemu kompleksowemu podejściu będziesz wiedzieć, czy problem ma charakter ogólny, regionalny, czy też dotyczy Twojej własnej infrastruktury, i będziesz mógł działać bez pochopnych decyzji.

W tym przewodniku przedstawię Ci wszystko, co potrzebne do sprawdzenia statusu AWS z głową: z pulpitu nawigacyjnego AWS Health Dashboard i jego integracji z EventBridgeDowiesz się, jak wyświetlać status odnowienia w ACM, interpretować kontrole EC2 i reagować za pomocą metryk i alarmów CloudWatch. Dowiesz się również, jakie kroki podjąć, jeśli konsola nie chce się załadować, jak sprawdzić publiczną stronę statusu i dlaczego firmy zewnętrzne, takie jak Downdetector, są przydatne dla kontekstu, ale nie dla automatyzacji.

Panel AWS Health: punkt wyjścia

W panelu AWS Health Dashboard wyświetlane są informacje o awariach, aktywnych zdarzeniach i planowanych pracach konserwacyjnych, które mogą mieć wpływ na Twoje usługi i zasoby. Stanowi część Twojego konta, nie wymaga konfiguracji i zapewnia widoczność kontekstową. o tym, co się dzieje. Jeśli nie jesteś zalogowany do konkretnej instancji lub konsoli, to jest to pierwsze miejsce, w którym powinieneś to sprawdzić.

Szczegół, o którym często się zapomina: AWS jest regionalnyWybierz właściwy region z selektora panelu Zdrowie, ponieważ jeśli wyszukasz niewłaściwy region, możesz przegapić problem, który Cię dotyczy. Ta precyzja zapobiega błędnym diagnozom, gdy problem ogranicza się do określonego obszaru geograficznego.

Od 2023 r. podczas otwierania wydarzenia publicznego w panelu Zdrowia Adres URL przeglądarki zawiera głęboki link do wydarzeniaDzięki temu możesz udostępnić konkretny incydent, który właśnie przeglądasz, lub otworzyć go ponownie i powrócić do tego samego widoku z załadowanym oknem podręcznym, co ułatwia pracę zespołową w trakcie incydentu.

Jeśli konsola administratora nie otwiera się lub zwraca błędy przeglądarki (np. 404), nie spiesz się z jej otwieraniem. Najpierw sprawdź, czy na pulpicie nawigacyjnym stanu zdrowia znajduje się istotne aktywne zdarzenie, a następnie zastosuj lokalne środki ostrożności, takie jak wyczyszczenie pamięci podręcznej i plików cookie, wypróbowanie innej przeglądarki i potwierdzenie ze swoim zespołem IT, że Twoja sieć nie blokuje domen Amazon (amazon.com i subdomen, takich jak aws.amazon.com).

Niezawodne pobieranie zdarzeń: EventBridge jest lepszy niż RSS

Istnieją kanały RSS z wydarzeniami dotyczącymi zdrowia, ale ich format mogą się zmieniać z czasem i przerywać integracjęMówiąc delikatnie, pozyskiwanie danych z kanałów RSS lub poleganie na nich w przypadku krytycznych procesów jest ryzykowne.

Najważniejsza jest integracja AWS Health z Amazon EventBridgeW ten sposób otrzymujesz zdarzenia według stabilnego schematu, w czasie rzeczywistym i gotowe do skierowania do Lambda, kolejek, powiadomień lub wewnętrznych pulpitów nawigacyjnych, tworząc obwód zdarzeń bez delikatnych części.

Dzięki EventBridge zyskujesz możliwość śledzenia i odporność: Możesz tagować, wzbogacać, korelować i automatyzować odpowiedzi w zależności od usługi, regionu lub wpływu. A jeśli jutro szczegóły prezentacji kanału publicznego ulegną zmianie, integracja pozostanie nienaruszona.

ACM: Przeglądaj odnowienia certyfikatów bez żadnych problemów

Za pomocą AWS Certificate Manager możesz w zarządzany sposób sprawdzać, czy certyfikaty są odnawiane prawidłowo. Certyfikat kwalifikuje się do automatycznego odnowienia, jeśli jest powiązany z usługami AWS (na przykład ELB lub CloudFront) lub jeśli został wyeksportowany od momentu jego wydania lub ostatniego odnowienia.Uprawnienie to jest podstawą do zapomnienia o ręcznym odnawianiu.

Po rozpoczęciu cyklu odnawiania ACM wyświetla pole statusu w szczegółach certyfikatu. Z poziomu konsoli, API lub CLI możesz sprawdzić stan odnowienia aby wiedzieć, na czym stoisz. Zobaczysz również istotne statusy związane z Twoim panelem zdrowia, jeśli pojawią się jakieś problemy wymagające Twojej uwagi.

Jeśli wolisz polecenia, CLI ułatwia to: Operacja describe-certificate zwraca szczegóły, łącznie ze statusem odnowienia., Por ejemplo:

przykład: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID

W odpowiedzi JSON należy zwrócić uwagę na pole RenewalStatus. Jeśli to pole jeszcze się nie pojawiło, oznacza to, że ACM nie zainicjowało zarządzanego odnowienia.Warto zaplanować z wyprzedzeniem: ACM próbuje automatycznie odnowić domenę około 60 dni przed jej wygaśnięciem, a jeśli coś pójdzie nie tak (np. walidacja domeny), W dziale Zdrowie otrzymasz powiadomienia z wyprzedzeniem: 45, 30, 15, 7, 3 i 1 dzień.

Kiedy konsola się nie ładuje: szybkie i skuteczne kroki

Błędy 404 lub problemy z połączeniem występujące podczas próby dostępu do konsoli AWS można zazwyczaj rozwiązać. Zacznij od przejrzenia Panelu stanu zdrowia w regionie, w którym znajdują się Twoje zasoby. aby odrzucić bieżące zdarzenie mające wpływ na daną usługę lub konsolę.

Jeżeli nie ma żadnych otwartych incydentów, należy zastosować środki lokalne: wyczyść pamięć podręczną przeglądarki i pliki cookie, spróbuj zalogować się za pomocą innej przeglądarki i sprawdź u administratora systemu, czy sieć firmowa nie blokuje domeny amazon.com ani subdomen takich jak aws.amazon.com.

Problem może ograniczać się do konkretnego zasobu. Na przykład instancja EC2 może przechodzić planowaną konserwację., a panel Zdrowie pokaże Ci okno i wpływ tego zdarzenia. Przejście do katalogu głównego oszczędza czas.

Ponadto, jeśli Twoje konto jest zablokowane, zawsze warto mieć pod ręką artykuły pomocy: Utwórz i aktywuj nowe konto, zaloguj się do konsoli lub poproś o pomoc.Dostęp do tych przewodników skraca czas oczekiwania w chwilach stresu.

EC2 w szczegółach: sprawdzanie statusu i co zrobić w przypadku niepowodzenia

Amazon EC2 przeprowadza automatyczne kontrole na każdej instancji w celu wykrycia problemów z platformą lub oprogramowaniem, które mogą mieć wpływ na Twoje aplikacje. Kontrole te przeprowadzane są co minutę i na podstawie wyniku oznaczają stan OK lub uszkodzony.Nie można ich wyłączyć i stanowią one wczesne ostrzeżenie.

Każdy typ weryfikacji jest obsługiwany przez metryki w CloudWatch. Jeśli kontrola zakończy się niepowodzeniem, powiązana z nią metryka wzrasta i należy włączyć alarm.Dzięki temu możesz zautomatyzować powiadomienia i działania, aby zminimalizować przestoje.

Kontrole systemu (platforma bazowa)

Te kontrole monitorują infrastrukturę, na której działa Twoja instancja. Jeśli wystąpi awaria, zwykle jest to spowodowane problemem z platformą, który wymaga interwencji AWS lub podjęcia działań mających na celu przeniesienie instancji na innego hosta..

W przypadku przypadków obsługiwanych przez EBS skuteczne działanie jest zatrzymaj i uruchom instancję, aby przenieść ją na nowego hostaJeśli Twoja instancja korzysta z magazynu instancji (Linux), możesz zdecydować się na zakończenie działania i zastąpienie jej, mając świadomość, że woluminy tymczasowe zostaną utracone po wyłączeniu.

Wskaźnikiem odzwierciedlającym tę awarię jest StatusCheckFailed_SystemDoskonale nadaje się do alarmów uruchamiających skrypty, automatycznego odzyskiwania lub otwierania zgłoszenia pomocy technicznej, jeśli sytuacja będzie się powtarzać.

Bare Metal ma jedną szczególną cechę: Ponowne uruchomienie systemu operacyjnego może tymczasowo spowodować błąd sprawdzania systemu.. Gdy instancja powróci do działania, status powróci do OK bez dalszej interwencji.

Sprawdzanie instancji (łączności i oprogramowania)

Tego typu kontrole analizują stan systemu operacyjnego i sieci danej instancji. EC2 weryfikuje łączność poprzez wysyłanie żądań ARP do karty sieciowej w celu sprawdzenia, czy odpowiada.W przypadku wystąpienia takiej awarii zazwyczaj konieczne są zmiany z Twojej strony.

Jeśli kontrola się nie powiedzie, czas działać: Uruchom ponownie instancję, sprawdź zaporę/iptables, sprawdź logi systemowe i upewnij się, że sieć odpowiada.Jeśli przyczyną jest oprogramowanie lub konfiguracja, czekanie nie wystarczy.

Wskaźnikiem, na który należy zwrócić uwagę, jest StatusCheckFailed_Instance. Użyj go, aby wywołać alarmy, które uruchamiają procedury diagnostyczne (zbieranie dzienników, kontrolowane ponowne uruchomienia lub wycofywanie, jeśli wykryjesz, że odzyskiwanie danych nie następuje).

Ponownie, w systemie Bare Metal, może pojawić się tymczasowy błąd przy ponownym uruchamianiu systemu operacyjnego. Po zakończeniu rozruchu instancji normalne jest, że kontrole powrócą do stanu OK., więc nie panikuj.

Sprawdzenia dołączone do EBS (wejście/wyjście na woluminach)

Te sprawdzenia sprawdzają, czy podłączone woluminy EBS są dostępne i mogą wykonywać operacje wejścia/wyjścia. Binarna metryka StatusCheckFailed_AttachedEBS wskazuje pogorszenie sytuacji, gdy jeden lub więcej woluminów ulegnie awarii..

Błąd na tym polu może wynikać z ukrytych problemów obliczeniowych lub błędów w EBS. Możesz oczekiwać od AWS złagodzenia skutków lub podjąć działania:Wymień woluminy, zatrzymaj i uruchom instancję, aby przenieść ją na innego hosta lub sprawdź rozmiar IOPS, jeśli zauważysz wąskie gardła.

Jeżeli obciążenie nie wykonuje operacji wejścia/wyjścia, ale następuje pogorszenie, Cykl zatrzymania i ponownego uruchomienia może rozwiązać problemy hosta, które wpływają na dostępność woluminów.Uzupełnij o natywne metryki EBS w CloudWatch, aby wykrywać wzorce słabej wydajności.

W grupach automatycznego skalowania skonfiguruj zasady, aby Usuń wystąpienia z trwałymi awariami w załączonym sprawdzeniu EBSUtrzymasz swoją flotę w dobrym stanie bez konieczności ręcznej ingerencji i unikniesz długich przestojów.

Alarmy i automatyzacja: CloudWatch + automatyczne skalowanie

Dzięki wszystkim danym dotyczącym stanu zdrowia CloudWatch staje się Twoim układem nerwowym. Definiuj progi, twórz alarmy i organizuj działania: powiadomienia, Lambda, odzyskiwanie lub wymiana instancjiJest podstawą automatycznych i spójnych odpowiedzi.

Jeśli potrzebujesz ciągłości działania firmy, rozważ automatyzację i zastąpienie: Automatyczne skalowanie umożliwia wycofanie uszkodzonych instancji i uruchomienie nowych, podczas gdy alarmy aktywują odpowiednie kanały powiadomień (e-mail, Slack, PagerDuty lub inny, z którego korzystasz).

Pełny obraz pochodzi z korelujących źródeł: Metryki i dzienniki CloudWatch, ślady i zdarzenia AWS Health za pośrednictwem EventBridgeDzięki temu kafelkowi będziesz w stanie określić, czy problem dotyczy aplikacji, instancji, woluminu czy platformy, i będziesz mógł podjąć odpowiednią reakcję.

Oficjalne i kontekstowe źródła informacji o awarii AWS

Kiedy krążą plotki o upadku — jak Globalna awaria AWS co spowodowało ogromne niepowodzenia — ideałem jest nadanie priorytetu źródłom oficjalnym. Sprawdź publiczną stronę status.aws.amazon.com, aby zobaczyć status dla poszczególnych usług i regionów.i skorzystaj z AWS Health Dashboard, jeśli jesteś zalogowany, aby uzyskać informacje specyficzne dla konta.

Źródła zewnętrzne dostarczają dodatkowego kontekstu społecznego i sygnałów. Downdetector odzwierciedla skoki w zgłoszeniach użytkowników, a The Stack Status podsumowuje statusy kilku dostawców.Są przydatne do szacowania zasięgu, choć nie zastępują oficjalnych kanałów.

Rozróżnia jednak widoczność i automatyzację. W przypadku programowego pobierania zdarzeń EventBridge sprawdza się lepiej niż kanały RSS czy scrapowanie.ponieważ formaty zewnętrzne mogą się zmieniać i pozostawić Cię w samym środku incydentu.

Jak powstają duże krople i czego można się spodziewać

Do poważnych incydentów dochodzi zazwyczaj w regionach o dużym natężeniu ruchu (takich jak wschodnie wybrzeże USA) i Wpływ odczuwalny jest w łańcuchach: pamięci masowej, obliczeniowej, bazach danych czy DNSNierzadko zdarza się, że usługi takie jak S3, EC2, RDS, Route 53 czy Kinesis są wymienione na liście usług dotkniętych skokami błędów.

W takich przypadkach firmy zajmujące się transmisją strumieniową, narzędzia do współpracy, rozwiązania e-commerce i aplikacje mobilne mogą doświadczać opóźnień, błędów uwierzytelniania i sporadycznych awarii. Ten schemat jest nierówny: u niektórych użytkowników działa, u innych nie.według tras, punktów obecności i aktywnych regionów.

Oficjalne kanały zazwyczaj publikują regularne aktualizacje: Wstępna identyfikacja przyczyny (np. problemy z rozpoznawaniem nazw DNS w interfejsie API), wdrożenie środków zaradczych i zalecenia dotyczące ponownych próbW miarę postępu odzyskiwania liczba błędów maleje, a ruch wraca do normy.

W niektórych krajach lub sektorach zobaczysz nagłówki dotyczące konkretnych usług, których dotyczą zmiany. Platformy takie jak Netflix, Disney+, Slack, banki i bardzo popularne aplikacje mogą zostać dotknięte gdy region, od którego są zależni, cierpi, a nawet przedsiębiorstwa w LATAM (takie jak iFood, Mercado Livre lub PicPay w poprzednich incydentach) odczuły wstrząsy.

Wpływ upadku na gospodarkę i reputację

Oprócz kwestii technicznych, awaria chmury niesie ze sobą realne koszty: Straty na minutę, przeciążone wsparcie techniczne, sfrustrowani klienci i presja mediówEfekt sieciowy jest wzmacniany przez centralizację niektórych filarów Internetu.

Organizacje świadczące usługi o znaczeniu krytycznym wiedzą o tym aż za dobrze: Jeśli błędy się powtarzają, zaufanie ulega erozji a przywrócenie dobrego wizerunku marki kosztuje więcej niż sama naprawa techniczna.

Kryzysy te niosą ze sobą oczywistą, ale niepokojącą lekcję: jesteśmy w dużym stopniu zależni od współdzielonych infrastrukturProjektowanie uwzględniające odporność i realistyczne założenia dotyczące awarii nie jest już opcjonalne.

Strategie zwiększające odporność na kolejne incydenty

Jeśli Twojej firmy nie da się zamknąć, istnieją taktyki pozwalające ograniczyć ryzyko operacyjne. Rozważ zastosowanie architektury wieloregionalnej w celu rozłożenia obciążenia pomiędzy różnymi strefami AWS. i uniknąć pojedynczego punktu awarii geograficznej.

Jeśli przypadek użycia to uzasadnia, należy rozważyć wdrożenie środowiska multi-cloud. Dystrybucja podstawowej funkcjonalności do innego dostawcy (Azure, GCP) zapewnia sieć bezpieczeństwa.choć wiąże się to z większą złożonością i kosztami koordynacji.

Na poziomie dostarczania dobrze skonfigurowana sieć CDN pomaga przetrwać burze. Usługi takie jak CloudFront i alternatywy takie jak Cloudflare umożliwiają serwowanie treści statycznych, nawet jeśli źródło Twojej witryny jest niestabilne.dając użytkownikom i systemom chwilę wytchnienia.

Nic z tego nie zadziała bez organizacji: Zdefiniuj plan reagowania na incydenty obejmujący role, kanały, eskalację i komunikację zewnętrznąW chwilach gorąca przejrzystość pozwala zaoszczędzić cenne minuty.

Najlepsze praktyki sprawdzania statusu AWS bez gubienia się

Centraliza la observabilidad: Użyj AWS Health Dashboard, aby poznać kontekst platformy, i CloudWatch, aby poznać metryki operacyjneDzięki podwójnemu podejściu nie zostaniesz zaskoczony przez żadną pojedynczą warstwę.

Automatyzuj za pomocą certyfikatów. Monitoruj status odnowienia w ACM i reaguj na rosnące alerty z poziomu pulpitu nawigacyjnego Stan aby nie przekroczyć terminu ważności w niewłaściwy sposób.

Ustaw alarmy dla kluczowych wskaźników EC2. StatusCheckFailed_System, StatusCheckFailed_Instance i StatusCheckFailed_AttachedEBS są niezbędne, związane z odzyskiwaniem, ponownym uruchamianiem, przełączaniem awaryjnym lub działaniami zastępczymi za pośrednictwem automatycznego skalowania, zgodnie z umową SLA.

A jeśli konsola stawia opór, pamiętaj o liście kontrolnej: Sprawdź zdarzenia dotyczące zdrowia w odpowiednim regionieWyczyść pamięć podręczną i pliki cookie, zmień przeglądarkę i potwierdź u działu IT, że domeny AWS nie są zablokowane. Te proste kontrole rozwiązują więcej problemów, niż myślisz.

Powiązane zasoby i pomoc dotycząca konta

Aby rozszerzyć i wzmocnić swoje działania, przejrzyj dokumentację dotyczącą zaangażowanych usług. AWS Health i EventBridge do routingu zdarzeń, ACM do odnawiania oraz CloudWatch/EC2 do metryk i działań., tworzą potężny zestaw.

  • Panel zdrowia AWS:Widoczność zdarzeń publicznych i zdarzeń specyficznych dla konta, bez konieczności dodatkowej konfiguracji.
  • Most zdarzeń Amazona:Niezawodne gromadzenie informacji o zdarzeniach zdrowotnych z elastycznymi zasadami kierowania do wielu miejsc docelowych.
  • Menedżer certyfikatów AWS (ACM):Śledzenie statusu odnowienia i rozłożone w czasie powiadomienia przed upływem terminu.
  • Amazon EC2 + CloudWatch:Liczba kontroli na minutę, wskaźniki statusu i alarmy wyzwalające automatyczne odpowiedzi.

Jeśli masz pytania dotyczące dostępu do swojego konta lub zarządzania nim, zapoznaj się z najczęściej zadawanymi pytaniami w artykułach pomocy technicznej: Jak utworzyć i aktywować nowe konto, jak zalogować się do konsoli oraz jak poprosić o pomoc dotyczącą konta i zasobów.. Ich zlokalizowanie przyspiesza proces, gdy coś nie pasuje.

Spojrzenie na pojedynczy panel nigdy nie oddaje całego obrazu: Sprawdzanie kondycji AWS wymaga połączenia kontekstu Panelu kondycji, niezawodnego pozyskiwania danych z EventBridge, sygnałów ACM i sprawdzeń EC2.Dzięki przemyślanym alarmom i przejrzystym podręcznikom diagnozy pojawiają się szybciej, reakcje są dokładniejsze, a operacje przebiegają sprawniej, nawet gdy zwiększa się natężenie ruchu lub panują regionalne niepokoje.

Amazon Web Services (AWS) przestaje działać na całym świecie
Podobne artykuł:
Globalna awaria AWS powoduje masowe przerwy w działaniu stron internetowych, aplikacji i płatności