View a markdown version of this page

Testen Sie die integrierten Workloads im Bereich Incident Detection and Response - AWS-Benutzerhandbuch zur Erkennung und Reaktion auf Vorfälle

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Testen Sie die integrierten Workloads im Bereich Incident Detection and Response

Nach Aufnahme von Alarmen Abschluss des Vorgangs aktiviert AWS Incident Detection and Response die Überwachung Ihrer Arbeitslast und sendet eine Go-Live Bestätigung. Ihr Workload wird ab diesem Zeitpunkt aktiv überwacht.

Mit Alarmtests wird bestätigt, dass Ihre integrierten Alarme wie erwartet AWS Incident Detection and Response aktivieren, die entsprechenden Runbooks auslösen und alle anderen gewünschten Aktionen ausführen, z. B. die auto Fallerstellung, falls Sie diese Option bei der Alarmerfassung ausgewählt haben.

Tests sind optional, werden aber dringend empfohlen. Sie sind dafür verantwortlich, Ihre Reaktionsvereinbarungen zu überprüfen, bevor ein echter Vorfall eintritt.

Optionen zum Testen

AWS Incident Detection and Response bietet zwei Testoptionen.

Option 1: Geplant GameDay (empfohlen)

Bei einem geplanten Ereignis GameDay handelt es sich um eine umfassende Live-Simulation dessen, was während eines realen Vorfalls passieren könnte. AWS Incident Detection and Response folgt Ihren vorgeschriebenen Runbook-Schritten, um Ihnen einen Einblick zu geben, wie sich ein realer Vorfall entwickeln könnte. Dies GameDay ist eine Gelegenheit für Sie, Fragen zu stellen oder Anweisungen zu verfeinern, um das Engagement zu verbessern.

Gehen Sie wie folgt vor GameDay, um einen Termin zu vereinbaren:
  1. Teilen Sie AWS Incident Detection and Response mit einem bevorzugten Datum und einem Zeitfenster von einer Stunde, einschließlich Zeitzone, mit. Geben Sie eine Vorlaufzeit von mindestens 48 Stunden an.

  2. Planen Sie die Ressourcen für die GameDay, einschließlich Ihres SRE/Ops Teams und Ihrer Eskalationskontakte.

GameDay Zeitplan:

  1. Sie und AWS Incident Detection and Response nehmen an der Telefonkonferenz teil.

  2. Sie deaktivieren gegebenenfalls Alarmaktionen.

  3. Sie setzen Ihre Alarme mithilfe der Anweisungen unter manuell auf den ALARM-StatusWie testen Sie Ihre Alarme.

  4. AWS Incident Detection and Response bestätigt den Eingang der Alarmmeldung.

  5. AWS Incident Detection and Response reagiert auf den Alarm und verbindet sich mit der in Ihrem Runbook vorgeschriebenen Bridge.

  6. Sie und AWS Incident Detection and Response bestätigen das GameDay Ergebnis.

Option 2: Offline-Alarmtests

Sie können Ihre Alarme jederzeit unabhängig voneinander testen, ohne einen Anruf zu vereinbaren. Beim Auslösen eines Alarms wird AWS Incident Detection and Response gemäß Ihrem Runbook aktiviert, genau wie bei einem echten Vorfall.

Gehen Sie wie folgt vor, um Offline-Alarmtests durchzuführen:
  1. Um unbeabsichtigte Aktionen zu verhindern, deaktivieren Sie alle CloudWatch Amazon-Alarmaktionen.

  2. Lösen Sie Ihre Alarme anhand der Anweisungen unter aus. Wie testen Sie Ihre Alarme

  3. Innerhalb von 5 Minuten wird in Ihrem Namen ein Support-Fall erstellt und AWS Incident Detection and Response kontaktiert Sie, wie in Ihrem Runbook angegeben.

  4. Informieren Sie den Incident Manager darüber, dass Sie Offline-Alarmtests durchführen.

  5. Der Incident Manager bestätigt, welche Änderungen des Alarmstatus eingegangen sind, und validiert die Reaktionsmaßnahmen.

Wenn innerhalb von 5 Minuten kein Support-Fall erstellt wird, reichen Sie eine Incident-Anfrage ein, um AWS Incident Detection and Response manuell zur Fehlerbehebung zu beauftragen.

Wie testen Sie Ihre Alarme

CloudWatch Amazon-Alarme

Anmerkung

Der AWS Identity and Access Management Benutzer oder die Rolle, die Sie für Alarmtests verwenden, muss über eine cloudwatch:SetAlarmState entsprechende Berechtigung verfügen.

Verwenden Sie das AWS Command Line Interface oder AWS CloudShell, um Ihren Alarm manuell in den ALARM-Status zu versetzen. Diese Befehle ändern den Alarmstatus, ohne Ihre Arbeitslast zu beeinträchtigen.

Um unbeabsichtigte Aktionen zu verhindern, z. B. Neustarts der Amazon EC2 EC2-Instance, deaktivieren Sie alle CloudWatch Alarmaktionen, bevor Sie den Alarmstatus ändern. Sie können CloudWatch Alarmaktionen nach Abschluss des Tests wieder aktivieren. Weitere Informationen zum Deaktivieren oder Aktivieren von Alarmaktionen finden Sie unter DisableAlarmActionsund EnableAlarmActionsin der Amazon CloudWatch API-Referenz.

Alarmaktionen deaktivieren:

aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Setzen Sie den Alarmstatus auf ALARM:

aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Re-enable Alarmaktionen nach dem Testen:

aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Der Alarmstatus wird innerhalb weniger Sekunden automatisch auf OK zurückgesetzt.

Kombinierte Alarme

Der set-alarm-state Befehl garantiert nicht, dass zusammengesetzte Alarme in den Status OK zurückkehren. Es hat sich bewährt, den Status der zusammengesetzten Alarme nach dem Testen zu überprüfen. Verwenden Sie den folgenden Befehl, um einen Verbundalarm manuell zurückzusetzen:

aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Weitere Informationen zum manuellen Ändern des Status von CloudWatch Alarmen finden Sie SetAlarmStatein der Amazon CloudWatch API-Referenz.

Weitere Informationen zu den für CloudWatch API-Operationen erforderlichen Berechtigungen finden Sie in der CloudWatch Amazon-Berechtigungsreferenz.

Third-party APM-Alarme

Workloads, die ein APM-Tool (Application Performance Monitoring) eines Drittanbieters wie Datadog, Splunk, New Relic oder Dynatrace verwenden, benötigen unterschiedliche Anweisungen, um einen Alarm zu simulieren.

  1. Deaktivieren Sie Alarmaktionen in Ihrem APM, um unbeabsichtigte Aktionen zu verhindern.

  2. Ändern Sie Ihren Alarmschwellenwert oder den Vergleichsoperator, um den Alarm in den ALARM-Status zu versetzen. Dadurch wird eine Payload für AWS Incident Detection and Response ausgelöst.

  3. Nach Abschluss des Tests können Sie den Schwellenwert oder die Änderungen am Vergleichsoperator rückgängig machen, um den Alarm wieder in den Status OK zu versetzen.

Die wichtigsten Ergebnisse

Nach erfolgreichem Testen:

  • Die Erfassung des Alarms wurde bestätigt und Ihre Alarmkonfiguration ist korrekt.

  • Alarme werden von AWS Incident Detection and Response empfangen.

  • Ein Support-Fall wird erstellt und Ihre angegebenen Ansprechpartner werden benachrichtigt.

  • AWS Incident Detection and Response engagiert Sie mit den für Konferenzen vorgesehenen Mitteln.

  • Alle während des Tests generierten Alarme und Supportfälle wurden behoben.

Häufig gestellte Fragen

Sind Alarmtests obligatorisch?

Nein. Tests sind optional, werden aber dringend empfohlen, um Ihre umfassenden Reaktionsvereinbarungen zu überprüfen, bevor ein echter Vorfall eintritt.

Wird mein Workload beeinträchtigt?

Nein. Beim Testen werden jedoch alle für Ihre Alarme konfigurierten Alarmaktionen ausgelöst, sofern Sie sie nicht deaktivieren. Deaktivieren Sie vor dem Testen die Alarmaktionen, um unbeabsichtigte Auswirkungen zu vermeiden.

Wer wird während des Tests benachrichtigt?

Während eines Terminplans GameDay werden alle Kontakte und Eskalationspfade in Ihrem Runbook zur Überprüfung kontaktiert. Beim Offline-Alarmtest wird nur der erste Kontakt benachrichtigt, der beim Onboarding des Alarms angegeben wurde.

Kann ich per E-Mail auf Fallaktualisierungen antworten?

Nein. E-Mail-Kopien von Support Fallkorrespondenzen werden von einer Adresse ohne Antwort gesendet. Um einen Fall zu aktualisieren, verwenden Sie den. AWS Support Center Console

Wie beantrage ich einen GameDay After-Go-Live?

Antworten Sie auf Ihren bestehenden Onboarding-Supportfall, falls vorhanden, oder erstellen Sie einen. Fragen Sie unter Incident Detection and Response nach Änderungen an einem integrierten Workload