View a markdown version of this page

Questionari di onboarding del carico di lavoro e inserimento degli allarmi in Incident Detection and Response (percorso di eccezione) - Guida per l'utente di AWS Incident Detection and Response

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Questionari di onboarding del carico di lavoro e inserimento degli allarmi in Incident Detection and Response (percorso di eccezione)

Nota

Se non riesci a utilizzare la CLI IDR per l'onboarding del tuo carico di lavoro, utilizza i seguenti questionari per l'onboarding del carico di lavoro e degli allarmi.

Questo argomento fornisce i questionari da completare durante l'onboarding di un carico di lavoro in AWS Incident Detection and Response e durante la configurazione degli allarmi da inserire nel servizio. Il questionario di onboarding del carico di lavoro contiene informazioni generali sul carico di lavoro, i dettagli dell'architettura e i contatti per la risposta agli incidenti. Nel questionario di inserimento degli allarmi, specifichi gli allarmi critici che innescano la creazione di incidenti in Incident Detection and Response per il tuo carico di lavoro, oltre a fornire informazioni sul runbook su chi contattare e quali azioni intraprendere. La corretta compilazione di questi questionari è un passaggio fondamentale nella configurazione dei processi di monitoraggio e risposta agli incidenti per i carichi di lavoro. AWS

Scarica il questionario di onboarding sul carico di lavoro:

Scarica il questionario sull'ingestione degli allarmi:

Questionario di onboarding sul carico di lavoro - Domande generali

Domande generali
Domanda Risposta di esempio
Nome dell'azienda

Amazon Inc.

Nome di questo carico di lavoro (includi eventuali abbreviazioni)

Amazon Retail Operations (ARO)

Utente finale principale e funzione di questo carico di lavoro.

Questo carico di lavoro è un'applicazione di e-commerce che consente agli utenti finali di acquistare vari articoli. Questo carico di lavoro è il principale generatore di entrate per la nostra attività.

Questionario sull'onboarding del carico di lavoro - Domande sull'architettura

Domande sull'architettura
Domanda Risposta di esempio

Un elenco di tag di AWS risorsa utilizzati per definire le risorse che fanno parte di questo carico di lavoro. AWS utilizza questi tag per identificare le risorse di questo carico di lavoro e velocizzare il supporto durante gli incidenti.

Nota

I tag rispettano la distinzione tra maiuscole e minuscole. Se fornisci più tag, tutte le risorse utilizzate da questo carico di lavoro devono avere gli stessi tag.

Nome app: Optimax

ambiente: Produzione

Un elenco degli Servizio AWS elementi utilizzati da questo carico di lavoro, con l' Account AWS indicazione degli elementi Regione AWS in cui si trovano.

Servizi AWS: Route 53, ALB, ECS,...

Conti: 123456789101, 123456789102,...

US-EAST-1Regioni: US-WEST-2,,...

Questionario sull'ingestione degli allarmi - Panoramica

Nel questionario di inserimento degli allarmi, specifichi gli allarmi critici per il carico di lavoro che desideri coinvolgere AWS Incident Detection and Response, nonché i contatti che desideri che un Incident Management Engineer coinvolga quando questi allarmi si attivano.

L'Alarm Ingestion Questionnaire è suddiviso nelle seguenti sezioni:

  • Sezione Contatti: per prima cosa, specifica il/i contatto/i primario/i da includere nel Supporto caso creato con AWS Incident Detection and Response quando si attiva un allarme, nonché la tua applicazione di conferenza preferita per i ponti incidenti. Se non viene fornita alcuna preferenza per il bridge, AWS Incident Detection and Response creerà un incident bridge durante gli incidenti. Successivamente, specifica i contatti di riferimento e gli intervalli di tempo per coinvolgerli quando i contatti principali non sono raggiungibili. Infine, elenca tutti i contatti che dovrebbero ricevere aggiornamenti regolari sullo stato degli incidenti tramite la richiesta di assistenza per tutta la durata dell'incidente.

  • Matrice degli allarmi: elenca il set di allarmi che attiveranno AWS Incident Detection and Response quando vengono attivati. Consulta i «Criteri di allarme critici» definiti da AWS Incident Detection and Response quando selezioni gli allarmi per l'onboarding. Per ulteriori informazioni, consulta Definizione di allarme.

Questionario sull'ingestione degli allarmi - Domande del runbook

Domande sul runbook
Domanda Risposta di esempio

AWS coinvolge i contatti del carico di lavoro attraverso il caso. Supporto Chi è il contatto principale quando si attiva un allarme per questo carico di lavoro?

Specificate la vostra applicazione di conferenza preferita e AWS richiederete questi dettagli durante un incidente.

Nota

Se non viene fornita un'applicazione di conferenza preferita, ti AWS contatterà durante un incidente e ti fornirà un bridge Chime a cui unirti.

Team di candidatura

app@example.com

+61 2 3456 7890

Se il contatto principale non è disponibile durante un incidente, fornisci i contatti di riferimento e la tempistica nell'ordine di comunicazione preferito.

1. Dopo 10 minuti, se il contatto principale non risponde, contatta:

John Smith - Supervisore delle applicazioni

john.smith@example.com

+61 2 3456 7890

2. Dopo 10 minuti, se John Smith non risponde, contatta:

Jane Smith - Responsabile delle operazioni

jane.smith@example.com

+61 2 3456 7890

Matrice di allarme

Fornisci le seguenti informazioni per identificare il set di allarmi che utilizzeranno AWS Incident Detection and Response per creare incidenti per conto del tuo carico di lavoro. Una volta che gli ingegneri di AWS Incident Detection and Response avranno esaminato i tuoi allarmi, verranno fornite ulteriori fasi di onboarding.

Criteri di allarme critici di AWS per il rilevamento e la risposta agli incidenti:

  • Gli allarmi AWS Incident Detection and Response devono entrare nello stato «Allarme» solo in caso di impatto aziendale significativo sul carico di lavoro monitorato (perdita dell'esperienza del revenue/degraded cliente) che richiede l'attenzione immediata dell'operatore.

  • Gli allarmi AWS Incident Detection and Response devono inoltre coinvolgere i resolver per il carico di lavoro contemporaneamente o prima dell'intervento. AWS Gli Incident Manager collaborano con i tuoi resolver nel processo di mitigazione e non fungono da soccorritori di prima linea che poi si rivolgono a te.

  • Le soglie di allarme AWS Incident Detection and Response devono essere impostate su una soglia e una durata appropriate in modo che ogni volta che viene attivato un allarme debba aver luogo un'indagine. Se un allarme passa dallo stato «Alarm» a «OK», si verifica un impatto sufficiente a giustificare la risposta e l'attenzione dell'operatore.

Policy di AWS Incident Detection and Response per le violazioni dei criteri:

Questi criteri possono essere valutati solo caso per caso al verificarsi degli eventi. Il team di gestione degli incidenti collabora con i responsabili tecnici degli account (TAM) per regolare gli allarmi e, in rari casi, disabilita il monitoraggio se si sospetta che gli allarmi dei clienti non rispettino questi criteri e coinvolga regolarmente il team di gestione degli incidenti inutilmente.

Importante

Quando fornisci gli indirizzi di contatto, fornisci un gruppo di indirizzi e-mail di distribuzione, in modo da poter controllare le aggiunte e le eliminazioni dei destinatari senza dover aggiornare i runbook.

Fornisci il numero di telefono di contatto del tuo team di ingegneria dell'affidabilità del sito (SRE) se desideri che il team di AWS Incident Detection and Response li chiami dopo aver inviato un'e-mail di coinvolgimento iniziale.

Tabella delle matrici di allarme per gli CloudWatch allarmi

CloudWatch allarme ARN

Contatto principale per questo allarme.

(Se diverso dal contatto principale del carico di lavoro)

Specificate il più pertinente Servizio AWS per questo allarme per coinvolgere il tecnico giusto. Inserisci N/A se non necessario.

Esempio:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

Esempio:

Sam Smith - Gestore delle applicazioni

sam.smith@example.com

+61 2 3456 7890

Esempio:

ECS

Tabella delle matrici di allarme per allarmi APM di terze parti

EventBridge Event Bus ARN

(Questo è stato creato come parte dell'integrazione APM di terze parti per indirizzare gli avvisi verso AWS Incident Detection and Response).

Esempio: (Ci sarà un bus di eventi per combinazione) Account/Region

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

Identificatore di allarme

Cosa rappresenta questa metrica?

Perché questo allarme è importante?

Contatto principale per questo allarme.

(Se diverso dal contatto principale del carico di lavoro)

Specificate il più pertinente Servizio AWS per questo allarme per coinvolgere il tecnico giusto. Inserisci N/A se non necessario.

Esempio:

ALB_5xx_ Target_Response

ID dell'account: 123456789012

Regione: us-east-1

Esempio:

Questa metrica rappresenta le risposte alle transazioni provenienti dai target alla base dell'ALB. Se gli errori 5XX superano la soglia, rappresenta un errore critico nell'elaborazione delle transazioni commerciali.

Esempio:

Sam Smith - Gestore delle applicazioni

sam.smith@example.com

+61 2 3456 7890

Esempio:

ECS