Fragebogen zum Onboarding zur Arbeitslast — Allgemeine Fragen Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur Fragebogen zur Erfassung von Alarmen — Überblick Fragebogen zur Erfassung von Alarmen — Runbook-Fragen Alarmmatrix

Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response (Ausnahmepfad)

Anmerkung

Wenn Sie die IDR CLI nicht verwenden können, um Ihren Workload zu integrieren, verwenden Sie die folgenden Fragebögen für das Onboarding von Workloads und Alarmen.

In diesem Thema finden Sie die Fragebögen, die Sie ausfüllen müssen, wenn Sie einen Workload in AWS Incident Detection and Response einbinden und Alarme für die Aufnahme in den Service konfigurieren. Der Fragebogen zum Onboarding von Workloads enthält allgemeine Informationen über Ihren Workload, dessen Architekturdetails und Ansprechpartner für die Reaktion auf Vorfälle. Im Fragebogen zur Erfassung von Alarmen geben Sie in Incident Detection and Response für Ihren Workload die kritischen Alarme an, die zur Entstehung von Vorfällen führen, sowie Runbook-Informationen darüber, an wen Sie sich wenden und welche Maßnahmen zu ergreifen sind. Das korrekte Ausfüllen dieser Fragebögen ist ein wichtiger Schritt bei der Einrichtung von Überwachungs- und Reaktionsprozessen für Ihre Workloads. AWS

Laden Sie den Fragebogen zum Onboarding von Workloads herunter:

Laden Sie den Fragebogen zur Aufnahme von Alarmen herunter:

Fragebogen zum Onboarding von Workloads — Allgemeine Fragen

Allgemeine Fragen
Frage	Beispielantwort
Name des Unternehmens	Amazon Inc.
Name dieses Workloads (einschließlich aller Abkürzungen)	Amazon Retail Operations (ARO)
Primärer Endbenutzer und die Funktion dieses Workloads.	Bei diesem Workload handelt es sich um eine E-Commerce-Anwendung, die es Endbenutzern ermöglicht, verschiedene Artikel zu kaufen. Dieser Workload ist der Hauptumsatzgenerator für unser Unternehmen.

Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur

Fragen zur Architektur
Frage	Beispielantwort
Eine Liste von AWS Ressourcen-Tags, die zur Definition von Ressourcen verwendet werden, die Teil dieser Arbeitslast sind. AWS verwendet diese Tags, um die Ressourcen dieses Workloads zu identifizieren, um den Support bei Vorfällen zu beschleunigen. Anmerkung Bei Tags muss die Groß- und Kleinschreibung beachtet werden. Wenn Sie mehrere Tags angeben, müssen alle von diesem Workload verwendeten Ressourcen dieselben Tags haben.	Anwendungsname: Optimax Umgebung: Produktion
Eine Liste von AWS-Service(en), die von diesem Workload genutzt werden, sowie der AWS-Konto(n) und AWS-Region(en), in denen sie sich befinden.	AWS-Services: Route 53, ALB, ECS,... Konten: 123456789101, 123456789102,... US-EAST-1Regionen: US-WEST-2,,...

Fragebogen zur Erfassung von Alarmen — Überblick

Im Fragebogen zur Erfassung von Alarmen geben Sie die kritischen Alarme für Ihren Workload an, die Sie mit AWS Incident Detection and Response in Verbindung setzen möchten, sowie die Kontakte, die ein Incident Management Engineer kontaktieren soll, wenn diese Alarme ausgelöst werden.

Der Fragebogen zur Erfassung von Alarmen ist in die folgenden Abschnitte unterteilt:

Abschnitt Kontakt: Geben Sie zunächst die primären Ansprechpartner an, die in den mit AWS Incident Detection and Response erstellten Support Fall aufgenommen werden sollen, wenn ein Alarm ausgelöst wird, sowie Ihre bevorzugte Konferenzanwendung für Incident Bridges. Wenn keine Bridge-Präferenz angegeben wird, erstellt AWS Incident Detection and Response bei Vorfällen eine Incident-Bridge. Geben Sie als Nächstes die Ansprechpartner für die Eskalation und die Zeitintervalle an, um sie zu kontaktieren, wenn die Hauptansprechpartner nicht erreichbar sind. Führen Sie abschließend alle Kontakte auf, die während der Dauer eines Vorfalls regelmäßig über den Support-Fall über den Status des Vorfalls informiert werden sollen.
Alarmmatrix: Listet die Alarme auf, die AWS Incident Detection and Response auslösen, wenn sie ausgelöst werden. Beachten Sie bei der Auswahl von Alarmen für das Onboarding die von AWS Incident Detection and Response definierten „Kritischen Alarmkriterien“. Weitere Informationen finden Sie unter Definition eines Alarms.
- Amazon CloudWatch Alarms (lassen Sie diesen Abschnitt leer, wenn Sie keine CloudWatch Amazon-Alarme haben)
- APM-Alarme von Drittanbietern (lassen Sie diesen Abschnitt leer, wenn Sie keine APM-Alarme von Drittanbietern haben)
  - EventBridge EventBus ARN: Dies ist der ARN des benutzerdefinierten EventBus ARN, den Sie in Erfassen Sie Alarme von APMs mit direkter Integration EventBridge oder erstellt habenErfassen Sie Alarme von APMs ohne direkte Integration mit EventBridge.
  - Alarm-Identifikatoren: Geben Sie die Kontonummer, die Region und den Namen des APM-Alarms an.

Fragebogen zur Erfassung von Alarmen — Runbook-Fragen

Fragen zum Runbook
Frage	Beispielantwort
AWS bindet während des Falls Ansprechpartner im Workload ein. Support Wer ist der Hauptansprechpartner, wenn ein Alarm für diese Arbeitslast ausgelöst wird? Geben Sie Ihre bevorzugte Konferenzanwendung an und AWS wir werden Sie bei einem Vorfall nach diesen Informationen fragen. Anmerkung Wenn keine bevorzugte Konferenzanwendung zur Verfügung steht, wird sich während eines Vorfalls mit AWS Ihnen in Verbindung setzen und Ihnen eine Chime-Bridge zur Verfügung stellen, an der Sie teilnehmen können.	Bewerbungsteam app@example.com +61 2 3456 7890
Wenn der Hauptansprechpartner während eines Vorfalls nicht verfügbar ist, geben Sie bitte die Eskalationskontakte und den Zeitplan in der bevorzugten Kommunikationsreihenfolge an.	1. Wenn Sie nach 10 Minuten keine Antwort vom Hauptansprechpartner erhalten haben, wenden Sie sich an: John Smith - Anwendungsleiter john.smith@example.com +61 2 3456 7890 2. Wenn nach 10 Minuten keine Antwort von John Smith vorliegt, wenden Sie sich an: Jane Smith - Betriebsleiterin jane.smith@example.com +61 2 3456 7890

Alarmmatrix

Geben Sie die folgenden Informationen an, um die Alarme zu identifizieren, die AWS Incident Detection and Response aktivieren, um Vorfälle im Namen Ihres Workloads zu erzeugen. Sobald die Techniker von AWS Incident Detection and Response Ihre Alarme überprüft haben, werden weitere Onboarding-Schritte durchgeführt.

Kriterien für kritische Alarme von AWS Incident Detection and Response:

Alarme von AWS Incident Detection and Response sollten nur dann in den Status „Alarm“ übergehen, wenn erhebliche Auswirkungen auf die überwachte Arbeitslast (Verlust der revenue/degraded Kundenerfahrung) bestehen und sofortige Aufmerksamkeit des Bedieners erforderlich ist.
Die AWS-Alarme für Incident Detection and Response müssen gleichzeitig oder vor dem Einsatz auch Ihre Resolver für die Arbeitslast einbeziehen. AWS Incident Manager arbeiten bei der Schadensbegrenzung mit Ihren Resolvern zusammen und agieren nicht als Ersthelfer, die dann an Sie weiterleiten.
Die Alarmschwellenwerte von AWS Incident Detection and Response müssen auf einen geeigneten Schwellenwert und eine angemessene Dauer festgelegt werden, sodass jedes Mal, wenn ein Alarm ausgelöst wird, eine Untersuchung durchgeführt werden muss. Wenn sich ein Alarm zwischen dem Status „Alarm“ und „OK“ bewegt, ist die Wirkung ausreichend, um eine Reaktion und Aufmerksamkeit des Bedieners zu gewährleisten.

AWS-Richtlinie zur Erkennung und Reaktion auf Vorfälle bei Verstößen gegen Kriterien:

Diese Kriterien können nur von Fall zu Fall bewertet werden, wenn Ereignisse eintreten. Das Incident-Management-Team arbeitet mit Ihren Technical Account Managern (TAMs) zusammen, um Alarme anzupassen und in seltenen Fällen die Überwachung zu deaktivieren, wenn der Verdacht besteht, dass Kundenalarme diese Kriterien nicht erfüllen, und das Incident-Management-Team unnötig regelmäßig einbezieht.

Wichtig

Geben Sie bei der Angabe von Kontaktadressen E-Mail-Adressen für die Gruppenverteilung an, sodass Sie das Hinzufügen und Löschen von Empfängern kontrollieren können, ohne dass Runbook-Updates erforderlich sind.

Geben Sie die Kontakttelefonnummer Ihres Site Reliability Engineering (SRE) -Teams an, wenn Sie möchten, dass das AWS-Incident Detection and Response-Team das Team nach dem Senden einer ersten Kontakt-E-Mail anruft.

Alarmmatrixtabelle für CloudWatch Alarme
CloudWatch Alarm ARN	Hauptansprechpartner für diesen Alarm. (Falls nicht identisch mit dem Hauptansprechpartner für die Workload)	Geben Sie den AWS-Service für diesen Alarm relevantesten Wert an, um den richtigen Techniker zu kontaktieren. Geben Sie ein N/A , falls nicht benötigt.
Beispiel: `arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response`	Beispiel: Sam Smith - Anwendungsmanager sam.smith@example.com +61 2 3456 7890	Beispiel: ECS

Alarmmatrixtabelle für APM-Alarme von Drittanbietern
EventBridge Eventbus ARN (Dies wird im Rahmen der APM-Integration von Drittanbietern erstellt, um Warnmeldungen an AWS Incident Detection and Response weiterzuleiten.)		Beispiel: (Pro Account/Region Kombination wird es einen Event-Bus geben) `arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus` `arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus`
Alarm-ID	Was bedeutet diese Metrik? Warum ist dieser Alarm wichtig?	Hauptansprechpartner für diesen Alarm. (Falls nicht identisch mit dem Hauptansprechpartner für die Workload)	Geben Sie den AWS-Service für diesen Alarm relevantesten Wert an, um den richtigen Techniker zu kontaktieren. Geben Sie ein N/A , falls nicht benötigt.
Beispiel: ALB_5xx_ Target_Response Konto-ID: 123456789012 Region: us-east-1	Beispiel: Diese Metrik stellt die Transaktionsantworten der Ziele dar, die hinter dem ALB stehen. Wenn 5XX Fehler den Schwellenwert überschreiten, stellt dies einen kritischen Fehler bei der Verarbeitung von Geschäftstransaktionen dar.	Beispiel: Sam Smith — Anwendungsmanager sam.smith@example.com +61 2 3456 7890	Beispiel: ECS

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Alarme werden live geschaltet

Workloads verwalten