View a markdown version of this page

Entwickeln Sie unter Incident Detection and Response Runbooks und Reaktionspläne für die Reaktion auf einen Vorfall - AWS-Benutzerhandbuch zur Erkennung und Reaktion auf Vorfälle

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Entwickeln Sie unter Incident Detection and Response Runbooks und Reaktionspläne für die Reaktion auf einen Vorfall

AWS Incident Detection and Response verwendet Informationen, die bei Ihrem IDR-CLI-Onboarding erfasst wurden, um Runbooks für die Verwaltung von Vorfällen zu entwickeln, die sich auf Ihre Workloads auswirken. Runbooks dokumentieren die Schritte, die Incident Manager ergreifen, wenn sie auf einen Vorfall reagieren. Ein Reaktionsplan ist mindestens einer Ihrer Workloads zugeordnet. Das Incident-Management-Team erstellt diese Vorlagen anhand der Informationen, die Sie beim Onboarding der Workloads bereitgestellt haben.

Die wichtigsten Ergebnisse:

  • Abschluss Ihrer Workload-Definition auf AWS Incident Detection and Response.

  • Fertigstellung von Alarmen und Runbooks auf AWS Incident Detection and Response.

Sie können auch ein Beispiel für ein AWS Incident Detection and Response Runbook herunterladen: aws-idr-runbook-example.zip.

Beispiel Beispiel Runbook
Description

Dieses Dokument ist für [CustomerName] - [WorkloadName] vorgesehen.

Schritt: Priorität

Vorrangige Maßnahmen

  1. Senden Sie dem Kunden wie folgt die erste Korrespondenz zu dem Support Fall.

Hello, This is <<Engineer's name>> from AWS Incident Detection and Response. An alarm has triggered for your workload <<Application_Name>>. I am currently investigating and will update you in a few minutes once I have finished initial investigation. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
Schritt: Informationen

Engagement-Pläne

In diesem Abschnitt werden die für dieses Runbook geltenden Einsatzpläne beschrieben. Er enthält nur Kontaktinformationen. Auf die Einsatzpläne wird in den schrittweisen Kommunikationsplänen verwiesen.

  • Erstes Engagement

    Das AWS Incident Detection and Response Team fügt dem Support Fall unten die Adressen von Kundenbeteiligten hinzu. AWS Interessengruppen sind für zusätzliche Interessengruppen gedacht, die möglicherweise auf Probleme aufmerksam gemacht werden müssen.

    • Stakeholder beim Kunden: Kunden-E-Mail1; Kunden-E-Mail2; Mobiltelefon1

    • AWS Stakeholder: aws-idr-oncall@amazon.com; Tam-Team-E-Mail; usw.

    • Einmalige Kontakte: [Dies sind E-Mail-Kontakte, die nur in der ersten Mitteilung enthalten sind. Entferne diese Kontakte, nachdem die erste Kommunikation beendet wurde. Dabei kann es sich um Paging-E-Mail-Adressen von Kunden handeln, z. B. um Pager-Duty-E-Mail-Adressen, die nicht bei jeder Korrespondenz durchsucht werden dürfen. Fügen Sie im Abschnitt „Priorität“, „Kommunikationspläne“, explizit Anweisungen hinzu, wie Sie diese nur verwenden können, wenn One Time Only Contacts verfügbar ist.]

  • Einrichtung eines Incident-Calls

    Geben Sie an, ob der Kunde AWS Incident Detection and Response benötigt, um eine Bridge zu erstellen, ob der Kunde eine statische Bridge verwendet oder ob der Kunde eine Bridge bereitstellt, wenn ein Incident eröffnet wird.

    (Wählen Sie je nach Kundenpräferenz eine Option)

    • AWS Incident Detection and Response erstellt eine Amazon Chime/Zoom Bridge

    • Vom Kunden bereitgestellte statische Bridge

      • Nummer der Konferenz: < Insert Conference number >

    • Der Kunde stellt Bridge-Details für jeden Vorfall zur Verfügung, indem er auf die Mitteilung des AWS Incident Detection and Response Teams reagiert.

    • Andere — Geben Sie Einzelheiten an.

  • Eskalation des Engagements

    AWS Incident Detection and Response wird sich mit den folgenden Kontakten in Verbindung setzen, wenn die Kontakte aus dem ersten Einsatzplan nicht auf Vorfälle reagieren.

    Geben Sie für jeden Eskalationskontakt an, ob sie dem Support Fall hinzugefügt werden müssen, ob sie telefonisch oder beides hinzugefügt werden müssen.

    • Stellen Sie sicher, dass Sie den Erstkontakt, falls zutreffend, angerufen haben, bevor Sie eine Eskalation durchführen.

    • Erster Kontakt zur Eskalation: [Eskalation EmailAddress #1]/[PhoneNumber] — Warten Sie XX Minuten, bevor Sie die Eskalation an diesen Kontakt weiterleiten.

      • [Kontakt zu Fall hinzufügen/Telefon] dieser Kontakt.

    • Zweiter Eskalationskontakt: [Eskalation EmailAddress #2]/[PhoneNumber] — Warten Sie XX Minuten, bevor Sie an diesen Kontakt weiterleiten.

      • [Kontakt zum Fall hinzufügen/Telefonnummer] dieser Kontakt.

    • usw..

Kommunikationspläne

In diesem Abschnitt wird beschrieben, wie die Techniker für das Incident-Management mit bestimmten Stakeholdern außerhalb der Anruf- und Kommunikationskanäle kommunizieren.

  • Kommunikationsplan zur Wirkung

    Dieser Plan wird initiiert, wenn AWS Incident Detection and Response im Schritt Triage festgestellt hat, dass eine Warnung auf mögliche Auswirkungen auf einen Kunden hindeutet.

    AWS Incident Detection and Response fordert den Kunden auf, der im Voraus festgelegten Bridge beizutreten, wie unter Engagement-Pläne — Einrichtung eines Incident-Anrufs angegeben.

    (Wählen Sie eine Option, je nachdem, ob One Time Only Contacts verfügbar ist oder nicht.)

    1. Vergewissern Sie sich, dass die Kunden-Stakeholder aus den Plänen zur Kundenbindung — Erste Kundeninteraktion dem Kundenbetreuungs-CC hinzugefügt werden.

    ODER

    1. Stellen Sie sicher, dass Kundenbeteiligte und Einmalkontakte aus dem Kundenbindungsplan — Erste Kundenbindung dem Kundenvorgangs-CC hinzugefügt werden.

    2. Senden Sie die Interaktionsbenachrichtigung auf der Grundlage der folgenden Vorlage an den Kunden:

      (Wählen Sie eine aus)

      Impact-Vorlage — Amazon Chime Bridge

      The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Amazon Chime Bridge below so we can start the steps outlined in your Runbook: Amazon Chime Meeting ID: <insert_Meeting_ID_here> Link to Amazon Chime Bridge: <insert_Link_here> International dial-in numbers: https://chime.aws/dialinnumbers/

      Impact-Vorlage — vom Kunden bereitgestellte Bridge

      The following alarm has engaged AWS Incident Detection and Response: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025 3:30 PM UTC> Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook.

      Vorlage für Auswirkungen — Statische Brücke vom Kunden

      The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert CloudWatch Alarm ARN or APM Response Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Bridge below so we can start the steps outlined in your Runbook: Conference Number: <insert_conference_number> Conference URL: <insert_bridge_URL>
    3. Stellen Sie den Fall auf Ausstehende Kundenaktion ein.

    4. ENTFERNEN Sie nach dem Absenden der oben genannten Impact-Mitteilung nur einmalige Kontakte aus dem Fall. (Wenn One Time Only Contacts verfügbar ist.)

    5. Folgen Sie dem Plan zur Eskalation von Engagement, wie oben beschrieben.

    6. Wenn der Kunde nicht innerhalb von 30 Minuten reagiert, schalten Sie die Verbindung ab und überwachen Sie weiter, bis der Alarm behoben ist.

  • Kommunikationsplan „Keine Auswirkungen“

    Dieser Plan wird initiiert, wenn ein Alarm wiederhergestellt wird, bevor die erste Triage von Incident Detection and Response abgeschlossen ist.

    1. Bevor Sie die Benachrichtigung „Keine Auswirkungen“ senden, überprüfen Sie, ob Kundenkontakte and/or hinzugefügt wurden, und entfernen Sie sie anschließend aus der Support Kundenbetreuung. Diese basieren auf den Kontakten, die in den Aktionsplänen — Initial Engagement Plan aufgeführt sind.

      ["Fügen Sie KEINE einmaligen Kontakte hinzu."] (Gilt, wenn One Time Only Contacts verfügbar ist.)

    2. Senden Sie dem Kunden auf der Grundlage der folgenden Vorlage eine Benachrichtigung über die Tatsache, dass keine Kundenbindung besteht:

      Vorlage „Keine Auswirkungen“

      AWS Incident Detection and Response received an alarm that has recovered for your workload. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Alarm End Time - <Example: 1 January 2025, 3:35 PM UTC> This may indicate a brief customer impact that is currently not ongoing. If there is an ongoing impact to your workload, please let us know and we will engage to assist.
    3. Stellen Sie den Fall in den Bereich „Ausstehende Kundenaktion“.

    4. Wenn der Kunde nicht innerhalb von 30 Minuten antwortet, lösen Sie den Fall.

Überblick über die Anwendungsarchitektur

Dieser Abschnitt bietet einen Überblick über die application/workload Architektur zur Sensibilisierung von Incident Management Engineers und Operations Engineers.

  • AWS Konten und Regionen mit wichtigen Diensten — Liste der AWS Konten mit Regionen, die diese Anwendung unterstützen. Unterstützt Techniker bei der Bewertung der zugrunde liegenden Infrastruktur, die die Anwendung unterstützt.

    • 123456789012

      • US-EAST-1 - gegebenenfalls kurze Beschreibung

        • Amazon EC2 — ggf. kurze Beschreibung

        • DynamoDB — gegebenenfalls kurze Beschreibung

        • usw.

      • US-WEST-1 - gegebenenfalls kurze Beschreibung

        • usw

    • ein anderes Konto

      • usw