Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Questionnaires d'intégration de la charge de travail et d'ingestion d'alarmes dans Incident Detection and Response (chemin d'exception)
Note
Si vous ne pouvez pas utiliser la CLI IDR pour intégrer votre charge de travail, utilisez les questionnaires suivants pour l'intégration de la charge de travail et des alarmes.
Cette rubrique fournit les questionnaires que vous devez remplir lors de l'intégration d'une charge de travail dans AWS Incident Detection and Response et lors de la configuration des alarmes à intégrer au service. Le questionnaire d'intégration de la charge de travail contient des informations générales sur votre charge de travail, les détails de son architecture et les contacts pour la réponse aux incidents. Dans le questionnaire d'ingestion des alarmes, vous spécifiez les alarmes critiques qui déclenchent la création d'incidents dans Incident Detection and Response pour votre charge de travail, ainsi que les informations du manuel sur les personnes à contacter et les mesures à prendre. Le fait de remplir correctement ces questionnaires est une étape clé dans la mise en place de processus de surveillance et de réponse aux incidents pour vos AWS charges de travail.
Téléchargez le questionnaire d'intégration de Workload :
Téléchargez le questionnaire d'ingestion d'Alarm :
Questionnaire d'intégration de la charge de travail - Questions générales
| Question | Exemple de réponse |
|---|---|
| Nom de l'entreprise | Amazon Inc. |
| Nom de cette charge de travail (inclure les abréviations éventuelles) | Amazon Retail Operations (ARO) |
| L'utilisateur final principal et le fonctionnement de cette charge de travail. | Cette charge de travail est une application de commerce électronique qui permet aux utilisateurs finaux d'acheter divers articles. Cette charge de travail est la principale source de revenus pour notre entreprise. |
Questionnaire d'intégration de la charge de travail - Questions d'architecture
| Question | Exemple de réponse |
|---|---|
Liste des balises de AWS ressources utilisées pour définir les ressources faisant partie de cette charge de travail. AWS utilise ces balises pour identifier les ressources de cette charge de travail afin d'accélérer le support en cas d'incident. NoteLes balises sont sensibles à la casse. Si vous fournissez plusieurs balises, toutes les ressources utilisées par cette charge de travail doivent avoir les mêmes balises. |
Nom de l'application : Optimax environnement : Production |
Une liste des Service AWS personnes utilisées par cette charge de travail, des Compte AWS personnes et des Région AWS personnes dans lesquelles elles se trouvent. |
Services AWS: Route 53, ALB, ECS,... Comptes : 123456789101, 123456789102,... Régions : US-EAST-1, US-WEST-2,... |
Questionnaire sur l'ingestion d'alarmes - Aperçu
Dans le questionnaire d'ingestion d'alarmes, vous spécifiez les alarmes critiques pour votre charge de travail auxquelles vous souhaitez faire participer AWS Incident Detection and Response, ainsi que les contacts que vous souhaitez qu'un ingénieur de gestion des incidents intervienne lorsque ces alarmes se déclenchent.
Le questionnaire sur l'ingestion d'alarmes est divisé en sections suivantes :
Section de contact : spécifiez d'abord le ou les principaux contacts à inclure dans le Support dossier créé avec AWS Incident Detection and Response lorsqu'une alarme se déclenche, ainsi que votre application de conférence préférée pour les passerelles d'incidents. Si aucune préférence de passerelle n'est fournie, AWS Incident Detection and Response créera une passerelle lors des incidents. Spécifiez ensuite les contacts d'escalade et les intervalles de temps pour les engager lorsque les contacts principaux sont injoignables. Enfin, listez tous les contacts qui devraient recevoir des mises à jour régulières sur l'état des incidents par le biais du dossier d'assistance pendant toute la durée de l'incident.
Matrice d'alarmes : liste l'ensemble des alarmes qui déclencheront la détection et la réponse aux incidents AWS lorsqu'elles sont déclenchées. Consultez les « critères d'alarme critique » définis par AWS Incident Detection and Response lors de la sélection des alarmes à intégrer. Pour de plus amples informations, veuillez consulter Définition de l'alarme.
Amazon CloudWatch Alarms (laissez cette section vide si vous n'avez pas d' CloudWatch alarme Amazon)
Alarmes APM tierces (laissez cette section vide si vous n'avez pas d'alarmes APM tierces)
EventBridge EventBus ARN : il s'agit de l' EventBus ARN personnalisé que vous avez créé dans Ingérez les alarmes des APM grâce à l'intégration directe EventBridge ouIngérez les alarmes des APM sans intégration directe avec EventBridge.
Identifiants d'alarme : partagez le numéro de compte, la région et le nom de l'alarme APM.
Questionnaire sur l'ingestion d'alarmes - Questions du Runbook
| Question | Exemple de réponse |
|---|---|
AWS engage les contacts liés à la charge de travail tout au long du Support dossier. Qui est le contact principal lorsqu'une alarme se déclenche pour cette charge de travail ? Spécifiez votre application de conférence préférée et AWS nous vous demanderons ces informations lors d'un incident. NoteSi aucune application de conférence préférée n'est fournie, elle AWS vous contactera lors d'un incident et vous fournira un pont Chime que vous pourrez rejoindre. |
Équipe de candidature app@example.com +61 2 3456 7890 |
Si le contact principal n'est pas disponible lors d'un incident, veuillez indiquer les contacts d'escalade et le calendrier dans l'ordre de communication préféré. |
1. Au bout de 10 minutes, en l'absence de réponse de la part du contact principal, contactez : John Smith - Superviseur des applications john.smith@example.com +61 2 3456 7890 2. Après 10 minutes, si John Smith ne répond pas, contactez : Jane Smith - Directrice des opérations jane.smith@example.com +61 2 3456 7890 |
Matrice d'alarme
Fournissez les informations suivantes pour identifier l'ensemble d'alarmes qui actionnera AWS Incident Detection and Response pour créer des incidents au nom de votre charge de travail. Une fois que les ingénieurs d'AWS Incident Detection and Response auront examiné vos alarmes, des étapes d'intégration supplémentaires seront effectuées.
Critères d'alerte critiques d'AWS relatifs à la détection et à la réponse aux incidents :
Les alarmes de détection et de réponse aux incidents AWS ne doivent passer en état « alarme » qu'en cas d'impact commercial significatif sur la charge de travail surveillée (perte d'expérience revenue/degraded client) nécessitant une attention immédiate de la part de l'opérateur.
Les alarmes de détection et de réponse aux incidents AWS doivent également impliquer vos résolveurs pour la charge de travail en même temps ou avant l'engagement. AWS Les gestionnaires d'incidents collaborent avec vos résolveurs dans le cadre du processus d'atténuation et ne jouent pas le rôle d'intervenants de première ligne qui vous contactent ensuite.
Les seuils d'alarme de détection et de réponse aux incidents AWS doivent être définis sur un seuil et une durée appropriés afin que chaque fois qu'une alarme se déclenche, une enquête soit menée. Si une alarme passe de l'état « Alarme » à l'état « OK », l'impact est suffisant pour justifier la réponse et l'attention de l'opérateur.
Politique d'AWS en matière de détection et de réponse aux incidents en cas de violation des critères :
Ces critères ne peuvent être évalués qu'au cas par cas au fur et à mesure que les événements se produisent. L'équipe de gestion des incidents travaille avec vos responsables de comptes techniques (TAM) pour régler les alarmes et, dans de rares cas, désactiver la surveillance s'il est soupçonné que les alarmes des clients ne répondent pas à ces critères et fait appel à l'équipe de gestion des incidents de manière inutilement régulière.
Important
Indiquez les adresses e-mail de distribution d'un groupe lorsque vous fournissez des adresses de contact, afin de pouvoir contrôler les ajouts et les suppressions de destinataires sans mettre à jour le runbook.
Indiquez le numéro de téléphone de votre équipe d'ingénierie de fiabilité du site (SRE) si vous souhaitez que l'équipe de détection et de réponse aux incidents d'AWS l'appelle après avoir envoyé un e-mail d'engagement initial.
CloudWatch alarme ARN |
Contact principal pour cette alarme. (Si différent du contact principal chargé de la charge de travail) |
Spécifiez le plus pertinent Service AWS pour que cette alarme engage le bon ingénieur. Entrez N/A si ce n'est pas nécessaire. |
Exemple :
|
Exemple : Sam Smith - Responsable des applications sam.smith@example.com +61 2 3456 7890 |
Exemple : ECS |
EventBridge Bus d'événements (ARN) (Ceci est créé dans le cadre de l'intégration APM tierce pour acheminer les alertes vers AWS Incident Detection and Response.) |
Exemple : (Il y aura un bus d'événements par Account/Region combinaison)
|
||
Identifiant d'alarme |
Que représente cette métrique ? Pourquoi cette alarme est-elle importante ? |
Contact principal pour cette alarme. (Si différent du contact principal chargé de la charge de travail) |
Spécifiez le plus pertinent Service AWS pour que cette alarme engage le bon ingénieur. Entrez N/A si ce n'est pas nécessaire. |
Exemple : ALB_5xx_ Target_Response Identifiant du compte : 123456789012 Région : us-east-1 |
Exemple : Cette métrique représente les réponses aux transactions des cibles situées derrière l'ALB. Si le nombre d'erreurs 5XX dépasse le seuil, cela représente un échec critique du traitement des transactions commerciales. |
Exemple : Sam Smith - Responsable des applications sam.smith@example.com +61 2 3456 7890 |
Exemple : ECS |