Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response (Ausnahmepfad)
Anmerkung
Wenn Sie die IDR CLI nicht verwenden können, um Ihren Workload zu integrieren, verwenden Sie die folgenden Fragebögen für das Onboarding von Workloads und Alarmen.
In diesem Thema finden Sie die Fragebögen, die Sie ausfüllen müssen, wenn Sie einen Workload in AWS Incident Detection and Response einbinden und Alarme für die Aufnahme in den Service konfigurieren. Der Fragebogen zum Onboarding von Workloads enthält allgemeine Informationen über Ihren Workload, dessen Architekturdetails und Ansprechpartner für die Reaktion auf Vorfälle. Im Fragebogen zur Erfassung von Alarmen geben Sie in Incident Detection and Response für Ihren Workload die kritischen Alarme an, die zur Entstehung von Vorfällen führen, sowie Runbook-Informationen darüber, an wen Sie sich wenden und welche Maßnahmen zu ergreifen sind. Das korrekte Ausfüllen dieser Fragebögen ist ein wichtiger Schritt bei der Einrichtung von Überwachungs- und Reaktionsprozessen für Ihre Workloads. AWS
Laden Sie den Fragebogen zum Onboarding von Workloads herunter:
Laden Sie den Fragebogen zur Aufnahme von Alarmen herunter:
Fragebogen zum Onboarding von Workloads — Allgemeine Fragen
| Frage | Beispielantwort |
|---|---|
| Name des Unternehmens | Amazon Inc. |
| Name dieses Workloads (einschließlich aller Abkürzungen) | Amazon Retail Operations (ARO) |
| Primärer Endbenutzer und die Funktion dieses Workloads. | Bei diesem Workload handelt es sich um eine E-Commerce-Anwendung, die es Endbenutzern ermöglicht, verschiedene Artikel zu kaufen. Dieser Workload ist der Hauptumsatzgenerator für unser Unternehmen. |
Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur
| Frage | Beispielantwort |
|---|---|
Eine Liste von AWS Ressourcen-Tags, die zur Definition von Ressourcen verwendet werden, die Teil dieser Arbeitslast sind. AWS verwendet diese Tags, um die Ressourcen dieses Workloads zu identifizieren, um den Support bei Vorfällen zu beschleunigen. AnmerkungBei Tags muss die Groß- und Kleinschreibung beachtet werden. Wenn Sie mehrere Tags angeben, müssen alle von diesem Workload verwendeten Ressourcen dieselben Tags haben. |
Anwendungsname: Optimax Umgebung: Produktion |
Eine Liste von AWS-Service(en), die von diesem Workload genutzt werden, sowie der AWS-Konto(n) und AWS-Region(en), in denen sie sich befinden. |
AWS-Services: Route 53, ALB, ECS,... Konten: 123456789101, 123456789102,... US-EAST-1Regionen: US-WEST-2,,... |
Fragebogen zur Erfassung von Alarmen — Überblick
Im Fragebogen zur Erfassung von Alarmen geben Sie die kritischen Alarme für Ihren Workload an, die Sie mit AWS Incident Detection and Response in Verbindung setzen möchten, sowie die Kontakte, die ein Incident Management Engineer kontaktieren soll, wenn diese Alarme ausgelöst werden.
Der Fragebogen zur Erfassung von Alarmen ist in die folgenden Abschnitte unterteilt:
Abschnitt Kontakt: Geben Sie zunächst die primären Ansprechpartner an, die in den mit AWS Incident Detection and Response erstellten Support Fall aufgenommen werden sollen, wenn ein Alarm ausgelöst wird, sowie Ihre bevorzugte Konferenzanwendung für Incident Bridges. Wenn keine Bridge-Präferenz angegeben wird, erstellt AWS Incident Detection and Response bei Vorfällen eine Incident-Bridge. Geben Sie als Nächstes die Ansprechpartner für die Eskalation und die Zeitintervalle an, um sie zu kontaktieren, wenn die Hauptansprechpartner nicht erreichbar sind. Führen Sie abschließend alle Kontakte auf, die während der Dauer eines Vorfalls regelmäßig über den Support-Fall über den Status des Vorfalls informiert werden sollen.
Alarmmatrix: Listet die Alarme auf, die AWS Incident Detection and Response auslösen, wenn sie ausgelöst werden. Beachten Sie bei der Auswahl von Alarmen für das Onboarding die von AWS Incident Detection and Response definierten „Kritischen Alarmkriterien“. Weitere Informationen finden Sie unter Definition eines Alarms.
Amazon CloudWatch Alarms (lassen Sie diesen Abschnitt leer, wenn Sie keine CloudWatch Amazon-Alarme haben)
APM-Alarme von Drittanbietern (lassen Sie diesen Abschnitt leer, wenn Sie keine APM-Alarme von Drittanbietern haben)
EventBridge EventBus ARN: Dies ist der ARN des benutzerdefinierten EventBus ARN, den Sie in Erfassen Sie Alarme von APMs mit direkter Integration EventBridge oder erstellt habenErfassen Sie Alarme von APMs ohne direkte Integration mit EventBridge.
Alarm-Identifikatoren: Geben Sie die Kontonummer, die Region und den Namen des APM-Alarms an.
Fragebogen zur Erfassung von Alarmen — Runbook-Fragen
| Frage | Beispielantwort |
|---|---|
AWS bindet während des Falls Ansprechpartner im Workload ein. Support Wer ist der Hauptansprechpartner, wenn ein Alarm für diese Arbeitslast ausgelöst wird? Geben Sie Ihre bevorzugte Konferenzanwendung an und AWS wir werden Sie bei einem Vorfall nach diesen Informationen fragen. AnmerkungWenn keine bevorzugte Konferenzanwendung zur Verfügung steht, wird sich während eines Vorfalls mit AWS Ihnen in Verbindung setzen und Ihnen eine Chime-Bridge zur Verfügung stellen, an der Sie teilnehmen können. |
Bewerbungsteam app@example.com +61 2 3456 7890 |
Wenn der Hauptansprechpartner während eines Vorfalls nicht verfügbar ist, geben Sie bitte die Eskalationskontakte und den Zeitplan in der bevorzugten Kommunikationsreihenfolge an. |
1. Wenn Sie nach 10 Minuten keine Antwort vom Hauptansprechpartner erhalten haben, wenden Sie sich an: John Smith - Anwendungsleiter john.smith@example.com +61 2 3456 7890 2. Wenn nach 10 Minuten keine Antwort von John Smith vorliegt, wenden Sie sich an: Jane Smith - Betriebsleiterin jane.smith@example.com +61 2 3456 7890 |
Alarmmatrix
Geben Sie die folgenden Informationen an, um die Alarme zu identifizieren, die AWS Incident Detection and Response aktivieren, um Vorfälle im Namen Ihres Workloads zu erzeugen. Sobald die Techniker von AWS Incident Detection and Response Ihre Alarme überprüft haben, werden weitere Onboarding-Schritte durchgeführt.
Kriterien für kritische Alarme von AWS Incident Detection and Response:
Alarme von AWS Incident Detection and Response sollten nur dann in den Status „Alarm“ übergehen, wenn erhebliche Auswirkungen auf die überwachte Arbeitslast (Verlust der revenue/degraded Kundenerfahrung) bestehen und sofortige Aufmerksamkeit des Bedieners erforderlich ist.
Die AWS-Alarme für Incident Detection and Response müssen gleichzeitig oder vor dem Einsatz auch Ihre Resolver für die Arbeitslast einbeziehen. AWS Incident Manager arbeiten bei der Schadensbegrenzung mit Ihren Resolvern zusammen und agieren nicht als Ersthelfer, die dann an Sie weiterleiten.
Die Alarmschwellenwerte von AWS Incident Detection and Response müssen auf einen geeigneten Schwellenwert und eine angemessene Dauer festgelegt werden, sodass jedes Mal, wenn ein Alarm ausgelöst wird, eine Untersuchung durchgeführt werden muss. Wenn sich ein Alarm zwischen dem Status „Alarm“ und „OK“ bewegt, ist die Wirkung ausreichend, um eine Reaktion und Aufmerksamkeit des Bedieners zu gewährleisten.
AWS-Richtlinie zur Erkennung und Reaktion auf Vorfälle bei Verstößen gegen Kriterien:
Diese Kriterien können nur von Fall zu Fall bewertet werden, wenn Ereignisse eintreten. Das Incident-Management-Team arbeitet mit Ihren Technical Account Managern (TAMs) zusammen, um Alarme anzupassen und in seltenen Fällen die Überwachung zu deaktivieren, wenn der Verdacht besteht, dass Kundenalarme diese Kriterien nicht erfüllen, und das Incident-Management-Team unnötig regelmäßig einbezieht.
Wichtig
Geben Sie bei der Angabe von Kontaktadressen E-Mail-Adressen für die Gruppenverteilung an, sodass Sie das Hinzufügen und Löschen von Empfängern kontrollieren können, ohne dass Runbook-Updates erforderlich sind.
Geben Sie die Kontakttelefonnummer Ihres Site Reliability Engineering (SRE) -Teams an, wenn Sie möchten, dass das AWS-Incident Detection and Response-Team das Team nach dem Senden einer ersten Kontakt-E-Mail anruft.
CloudWatch Alarm ARN |
Hauptansprechpartner für diesen Alarm. (Falls nicht identisch mit dem Hauptansprechpartner für die Workload) |
Geben Sie den AWS-Service für diesen Alarm relevantesten Wert an, um den richtigen Techniker zu kontaktieren. Geben Sie ein N/A , falls nicht benötigt. |
Beispiel:
|
Beispiel: Sam Smith - Anwendungsmanager sam.smith@example.com +61 2 3456 7890 |
Beispiel: ECS |
EventBridge Eventbus ARN (Dies wird im Rahmen der APM-Integration von Drittanbietern erstellt, um Warnmeldungen an AWS Incident Detection and Response weiterzuleiten.) |
Beispiel: (Pro Account/Region Kombination wird es einen Event-Bus geben)
|
||
Alarm-ID |
Was bedeutet diese Metrik? Warum ist dieser Alarm wichtig? |
Hauptansprechpartner für diesen Alarm. (Falls nicht identisch mit dem Hauptansprechpartner für die Workload) |
Geben Sie den AWS-Service für diesen Alarm relevantesten Wert an, um den richtigen Techniker zu kontaktieren. Geben Sie ein N/A , falls nicht benötigt. |
Beispiel: ALB_5xx_ Target_Response Konto-ID: 123456789012 Region: us-east-1 |
Beispiel: Diese Metrik stellt die Transaktionsantworten der Ziele dar, die hinter dem ALB stehen. Wenn 5XX Fehler den Schwellenwert überschreiten, stellt dies einen kritischen Fehler bei der Verarbeitung von Geschäftstransaktionen dar. |
Beispiel: Sam Smith — Anwendungsmanager sam.smith@example.com +61 2 3456 7890 |
Beispiel: ECS |