View a markdown version of this page

Testa i carichi di lavoro integrati in Incident Detection and Response - Guida per l'utente di AWS Incident Detection and Response

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Testa i carichi di lavoro integrati in Incident Detection and Response

Ingestione degli allarmiAl termine, AWS Incident Detection and Response abilita il monitoraggio del carico di lavoro e invia una Go-Live conferma. Il tuo carico di lavoro viene monitorato attivamente da questo momento in poi.

Il test degli allarmi verifica che gli allarmi integrati attivino AWS Incident Detection and Response come previsto, attivino i runbook appropriati e qualsiasi altra azione desiderata, come la creazione automatica di casi in auto, se selezionata durante l'inserimento degli allarmi.

I test sono facoltativi ma fortemente consigliati. Sei responsabile della convalida delle disposizioni di risposta prima che si verifichi un incidente reale.

Opzioni di test

AWS Incident Detection and Response offre due opzioni di test.

Opzione 1: pianificata GameDay (consigliata)

Una pianificazione GameDay è una simulazione end-to-end dal vivo di ciò che potrebbe accadere durante un incidente reale. AWS Incident Detection and Response segue i passaggi del runbook prescritti per fornirti informazioni su come potrebbe svolgersi un incidente reale. GameDay È un'opportunità per porre domande o perfezionare le istruzioni per migliorare il coinvolgimento.

Per pianificare un GameDay, completa i seguenti passaggi:
  1. Invia una notifica ad AWS Incident Detection and Response con una data preferita e una finestra oraria di 1 ora, incluso il fuso orario. Fornisci almeno 48 ore di lead time.

  2. Pianifica le risorse per GameDay, tra cui il tuo SRE/Ops team e i contatti per l'escalation.

GameDay programma:

  1. Tu e AWS Incident Detection and Response partecipate alla chiamata.

  2. Disabiliti le azioni di allarme, se applicabile.

  3. È possibile impostare manualmente gli allarmi sullo stato ALARM utilizzando le istruzioni inCome testare i tuoi allarmi.

  4. AWS Incident Detection and Response conferma la ricezione della notifica di allarme.

  5. AWS Incident Detection and Response risponde all'allarme e si unisce al bridge prescritto nel runbook.

  6. Tu e AWS Incident Detection and Response confermate il GameDay risultato.

Opzione 2: test degli allarmi offline

È possibile testare gli allarmi in modo indipendente in qualsiasi momento senza pianificare una chiamata. L'attivazione di un allarme attiva AWS Incident Detection and Response in base al runbook, proprio come si farebbe durante un incidente reale.

Per eseguire il test degli allarmi offline, completa i seguenti passaggi:
  1. Per evitare azioni involontarie, disattiva qualsiasi azione di CloudWatch allarme di Amazon.

  2. Attiva gli allarmi utilizzando le istruzioni contenute in. Come testare i tuoi allarmi

  3. Entro 5 minuti, viene creato un caso di supporto per tuo conto e AWS Incident Detection and Response ti coinvolge come specificato nel runbook.

  4. Informa l'Incident Manager che stai eseguendo un test di allarme offline.

  5. L'Incident Manager conferma quali modifiche dello stato di allarme sono state ricevute e convalida le disposizioni di risposta.

Se non viene creato un caso di supporto entro 5 minuti, invia una richiesta di incidente per attivare manualmente AWS Incident Detection and Response per la risoluzione dei problemi.

Come testare i tuoi allarmi

CloudWatch Allarmi Amazon

Nota

L' AWS Identity and Access Management utente o il ruolo che usi per i test degli allarmi deve avere cloudwatch:SetAlarmState l'autorizzazione.

Usa AWS Command Line Interface o AWS CloudShellper impostare manualmente la sveglia sullo stato ALARM. Questi comandi modificano lo stato dell'allarme senza influire sul carico di lavoro.

Per evitare azioni indesiderate, ad esempio il riavvio delle istanze Amazon EC2, disabilita CloudWatch qualsiasi azione di allarme prima di modificare lo stato dell'allarme. Puoi riattivare le azioni di CloudWatch allarme dopo il completamento del test. Per ulteriori informazioni su come disabilitare o abilitare le azioni di allarme, consulta DisableAlarmActionse EnableAlarmActionsconsulta Amazon CloudWatch API Reference.

Disattiva le azioni di allarme:

aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Imposta lo stato di allarme su ALARM:

aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Re-enable azioni di allarme dopo il test:

aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Lo stato di allarme torna automaticamente a OK entro pochi secondi.

Allarmi compositi

Il set-alarm-state comando non garantisce che gli allarmi compositi tornino allo stato OK. Come procedura ottimale, verifica lo stato degli allarmi compositi dopo il test. Per resettare manualmente un allarme composito, usa il seguente comando:

aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Per ulteriori informazioni sulla modifica manuale dello stato degli CloudWatch allarmi, consulta SetAlarmStateAmazon CloudWatch API Reference.

Per ulteriori informazioni sulle autorizzazioni richieste per le operazioni CloudWatch API, consulta Amazon CloudWatch permissions reference.

Third-party Allarmi APM

I carichi di lavoro che utilizzano uno strumento APM (Application Performance Monitoring) di terze parti, come Datadog, Splunk, New Relic o Dynatrace, richiedono istruzioni diverse per simulare un allarme.

  1. Disattiva le azioni di allarme nel tuo APM per prevenire azioni indesiderate.

  2. Modifica la soglia di allarme o l'operatore di confronto per forzare l'allarme allo stato ALARM. Ciò attiva un payload per AWS Incident Detection and Response.

  3. Al termine del test, ripristina la soglia o le modifiche dell'operatore di confronto per riportare l'allarme allo stato OK.

Principali risultati

Dopo il successo dei test:

  • L'inserimento dell'allarme è confermato e la configurazione dell'allarme è corretta.

  • Gli allarmi vengono ricevuti da AWS Incident Detection and Response.

  • Viene creato un caso di supporto e i contatti prescritti vengono avvisati.

  • AWS Incident Detection and Response ti coinvolge con i mezzi di conferenza prescritti.

  • Tutti gli allarmi e i casi di assistenza generati durante i test sono stati risolti.

Domande frequenti

Il test degli allarmi è obbligatorio?

No I test sono facoltativi ma fortemente consigliati per convalidare le disposizioni di risposta end-to-end prima che si verifichi un incidente reale.

Il mio carico di lavoro ne risentirà?

No. Tuttavia, durante il test, tutte le azioni di allarme configurate sugli allarmi vengono attivate a meno che non le disabiliti. Disattiva le azioni di allarme prima del test per evitare impatti indesiderati.

Chi viene avvisato durante il test?

Durante una pianificazione GameDay, tutti i contatti e i percorsi di escalation presenti nel runbook vengono contattati per la verifica. Durante il test degli allarmi offline, viene notificato solo il contatto iniziale specificato durante l'attivazione degli allarmi.

Posso rispondere via e-mail agli aggiornamenti dei casi?

No Le copie via e-mail delle corrispondenze relative ai Supporto casi vengono inviate da un indirizzo senza risposta. Per aggiornare un caso, usa il. AWS Support Center Console

Come posso richiedere un GameDay post go-live?

Rispondi al tuo caso di supporto all'onboarding esistente, se esiste, o crea un. Richiedi modifiche a un carico di lavoro integrato in Incident Detection and Response