Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Sviluppa runbook e piani di risposta per rispondere a un incidente in Incident Detection and Response
AWS Incident Detection and Response utilizza le informazioni acquisite dall'onboarding della CLI IDR per sviluppare runbook per la gestione degli incidenti che influiscono sui carichi di lavoro. I runbook documentano i passaggi che gli Incident Manager intraprendono quando rispondono a un incidente. Un piano di risposta è mappato su almeno uno dei tuoi carichi di lavoro. Il team di gestione degli incidenti crea questi modelli sulla base delle informazioni fornite dall'utente durante l'onboarding del carico di lavoro.
Risultati chiave:
-
Completamento della definizione del carico di lavoro su AWS Incident Detection and Response.
-
Completamento di allarmi e runbook su AWS Incident Detection and Response.
Puoi anche scaricare un esempio di AWS Incident Detection and Response Runbook: aws-idr-runbook-example.zip.
Esempio Runbook di esempio
Description
Questo documento è destinato a [CustomerName] - [WorkloadName].
Fase: Priorità
Azioni prioritarie
-
Invia la prima corrispondenza sul Supporto caso al cliente come indicato di seguito.
Hello, This is <<Engineer's name>> from AWS Incident Detection and Response. An alarm has triggered for your workload <<Application_Name>>. I am currently investigating and will update you in a few minutes once I have finished initial investigation. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
Fase 2: Informazioni
Piani di coinvolgimento
Questa sezione descrive i piani di coinvolgimento applicabili a questo runbook e contiene solo i dettagli di contatto. I piani di coinvolgimento verranno indicati nei piani di comunicazione dettagliati.
-
Impegno iniziale
AWS Incident Detection and Response Team aggiunge gli indirizzi degli stakeholder dei clienti di seguito al Supporto caso. AWS gli stakeholder si rivolgono ad altri stakeholder che potrebbero aver bisogno di essere messi al corrente di eventuali problemi.
Stakeholder del cliente: customeremail1; customeremail2; mobile1
AWS Soggetti interessati: aws-idr-oncall@amazon.com; tam-team-email; ecc.
Contatti monouso: [Si tratta di contatti e-mail inclusi solo nella prima comunicazione. Rimuovi questi contatti dopo l'interruzione della prima comunicazione. Potrebbero trattarsi di indirizzi e-mail che cercano i clienti, ad esempio Pager-Duty, che non devono essere cercati per ogni corrispondenza. Aggiungi esplicitamente istruzioni nella sezione «Priorità», «Piani di comunicazione», su come utilizzarli solo se è disponibile l'opzione Contatti monouso.]
-
Configurazione delle chiamate impreviste
Indica se il cliente richiede AWS Incident Detection and Response per creare un bridge, se utilizza un bridge statico o se fornirà un bridge all'apertura di un incidente.
(Scegli un'opzione in base alle preferenze del cliente)
AWS Incident Detection and Response crea un Amazon Chime/Zoom Bridge
-
Bridge statico fornito dal cliente
Numero della conferenza: < Insert Conference number >
Il cliente fornisce i dettagli del bridge per ogni incidente rispondendo alle comunicazioni inviate dal team AWS Incident Detection and Response.
Altro: specifica i dettagli.
-
Inasprimento del coinvolgimento
AWS Incident Detection and Response contatterà i seguenti contatti quando i contatti del piano di coinvolgimento iniziale non rispondono agli incidenti.
Per ogni contatto di Escalation indica se deve essere aggiunto alla Supporto custodia, telefonato o entrambi.
Assicurati di aver chiamato il contatto di Initial Engagement, se applicabile, prima di procedere con l'escalation.
-
Primo contatto di escalation: [escalation EmailAddress #1]/[PhoneNumber] - Attendi XX minuti prima di passare a questo contatto.
[Aggiungi contatto a Case/Phone] questo contatto.
-
Secondo contatto di escalation: [escalation EmailAddress #2]/[PhoneNumber] - Attendi XX minuti prima di passare a questo contatto.
[Aggiungi contatto alla casa/telefono] questo contatto.
ecc.
Piani di comunicazione
Questa sezione descrive come gli ingegneri addetti alla gestione degli incidenti comunicano con le parti interessate designate al di fuori dei canali di chiamata e comunicazione degli incidenti.
-
Piano di comunicazione d'impatto
Questo piano viene avviato quando AWS Incident Detection and Response ha stabilito in fase di Triage che un avviso indica un potenziale impatto su un cliente.
AWS Incident Detection and Response richiederà al cliente di unirsi al bridge predeterminato come indicato in Engagement plans - Incident call setup.
(Scegline uno in base alla disponibilità o meno di One Time Only Contacts).
Garantisci la partecipazione dei clienti ai piani di coinvolgimento: il coinvolgimento iniziale viene aggiunto al case CC.
O
Assicuratevi che i clienti interessati e i contatti occasionali previsti dai piani di coinvolgimento rientrino nell'ambito dei piani di coinvolgimento: il coinvolgimento iniziale viene aggiunto al case CC.
Invia la notifica di coinvolgimento al cliente in base al seguente modello:
(Scegline uno)
Modello Impact - Amazon Chime Bridge
The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Amazon Chime Bridge below so we can start the steps outlined in your Runbook: Amazon Chime Meeting ID: <insert_Meeting_ID_here> Link to Amazon Chime Bridge: <insert_Link_here> International dial-in numbers: https://chime.aws/dialinnumbers/Modello di impatto - Bridge fornito dal cliente
The following alarm has engaged AWS Incident Detection and Response: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025 3:30 PM UTC> Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook.Modello di impatto - Customer Static Bridge
The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert CloudWatch Alarm ARN or APM Response Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Bridge below so we can start the steps outlined in your Runbook: Conference Number: <insert_conference_number> Conference URL: <insert_bridge_URL>Imposta il caso su Intervento in sospeso del cliente.
RIMUOVI i contatti monouso dalla custodia dopo aver inviato la comunicazione Impact di cui sopra. (Se è disponibile l'opzione Contatti monouso).
Segui il piano Engagement Escalation come indicato sopra.
Se il cliente non risponde entro 30 minuti, disattivalo e continua a monitorare fino al ripristino dell'allarme.
-
Piano di comunicazione senza impatto
Questo piano viene avviato quando viene ripristinato un allarme prima che il rilevamento e la risposta agli incidenti abbiano completato il triage iniziale.
-
Prima di inviare la notifica di assenza di impatto, verifica e quindi rimuovi i contatti dei clienti and/or aggiunti da Supporto Case CC in base ai contatti elencati nel piano Engagement plans - Initial Engagement Engagement plan.
["NON aggiungere contatti monouso."] (Applicabile se è disponibile l'opzione Contatti monouso).
Invia una notifica di assenza di coinvolgimento al cliente in base al modello seguente:
Modello No Impact
AWS Incident Detection and Response received an alarm that has recovered for your workload. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Alarm End Time - <Example: 1 January 2025, 3:35 PM UTC> This may indicate a brief customer impact that is currently not ongoing. If there is an ongoing impact to your workload, please let us know and we will engage to assist.Inserisci il caso nella sezione Pending Customer Action.
Se il cliente non risponde entro 30 minuti, risolvi il caso.
-
Panoramica dell'architettura delle applicazioni
Questa sezione fornisce una panoramica dell' application/workload architettura per la conoscenza di Incident Management Engineer e Operations Engineer.
-
AWS Account e regioni con servizi chiave: elenco di AWS account con regioni che supportano questa applicazione. Assiste gli ingegneri nella valutazione dell'infrastruttura sottostante che supporta l'applicazione.
-
123456789012
-
US-EAST-1 - una breve descrizione, se del caso
Amazon EC2: breve descrizione a seconda dei casi
DynamoDB: descrizione breve, se del caso
ecc.
-
US-WEST-1 - una breve descrizione, se del caso
ecc.
-
-
un altro account
ecc.
-