View a markdown version of this page

Desarrolle manuales y planes de respuesta para responder a un incidente en materia de detección y respuesta a incidentes - Guía del usuario de detección y respuesta a incidentes de AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Desarrolle manuales y planes de respuesta para responder a un incidente en materia de detección y respuesta a incidentes

AWS Incident Detection and Response utiliza la información recopilada de la incorporación de la CLI de IDR para desarrollar manuales de gestión de los incidentes que afectan a sus cargas de trabajo. Los manuales documentan las medidas que toman los administradores de incidentes al responder a un incidente. Se asigna un plan de respuesta a al menos una de sus cargas de trabajo. El equipo de gestión de incidentes crea estas plantillas a partir de la información proporcionada por usted durante la incorporación de la carga de trabajo.

Resultados clave:

  • Finalización de la definición de la carga de trabajo en AWS Incident Detection and Response.

  • Finalización de las alarmas y los manuales de detección y respuesta a incidentes de AWS.

También puede descargar un ejemplo del Runbook de detección y respuesta a incidentes de AWS: aws-idr-runbook-example.zip.

ejemplo Ejemplo de manual
Description (Descripción)

Este documento está destinado a [CustomerName] - [WorkloadName].

Paso: Prioridad

Acciones prioritarias

  1. Envíe la primera correspondencia sobre el Soporte caso al cliente de la siguiente manera.

Hello, This is <<Engineer's name>> from AWS Incident Detection and Response. An alarm has triggered for your workload <<Application_Name>>. I am currently investigating and will update you in a few minutes once I have finished initial investigation. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier>
Paso: Información

Planes de participación

En esta sección se describen los planes de participación aplicables a este manual y solo se incluyen los datos de contacto. Se hará referencia a los planes de participación en los planes de comunicación paso a paso.

  • Compromiso inicial

    El equipo de detección y respuesta a incidentes de AWS añade las direcciones de las partes interesadas de los clientes a continuación al Soporte caso. AWS las partes interesadas son para otras partes interesadas a las que podría ser necesario informar sobre cualquier problema.

    • Clientes interesados: correo electrónico del cliente 1; correo electrónico del cliente 2; móvil 1

    • AWS Partes interesadas: aws-idr-oncall@amazon.com; correo electrónico del equipo; etc.

    • Contactos únicos: [Son contactos de correo electrónico que solo se incluyen en la primera comunicación. Elimine estos contactos una vez finalizada la primera comunicación. Podrían ser direcciones de correo electrónico de los clientes que buscan llamadas, como locer-duty, que no deben estar localizadas para cada correspondencia. Añade instrucciones explícitas en la sección «Prioridad», «Planes de comunicación», sobre cómo utilizarlos solo si está disponible One Time Only Contacts.]

  • Configuración de llamadas en caso de incidente

    Indique si el cliente necesita AWS Incident Detection and Response para crear un puente, si el cliente utiliza un puente estático o si proporcionará un puente cuando se abra un incidente.

    (Elija una opción según las preferencias del cliente)

    • La detección y respuesta a incidentes de AWS crean un Amazon Chime/Zoom Bridge

    • El cliente proporcionó un puente estático

      • Número de conferencia: < Insert Conference number >

    • El cliente proporciona los detalles del puente para cada incidente respondiendo a la comunicación enviada por el equipo de detección y respuesta a incidentes de AWS.

    • Otros: especifique los detalles.

  • Aumento de la participación

    AWS Incident Detection and Response contactará con los siguientes contactos cuando los contactos del plan de participación inicial no respondan a los incidentes.

    Para cada contacto de escalación, indique si debe añadirse al Soporte caso, llamar por teléfono o ambos.

    • Asegúrese de haber llamado al contacto inicial, si corresponde, antes de escalar la escala.

    • Primer contacto de escalación: [escalada EmailAddress #1]/[PhoneNumber] - Espere XX minutos antes de escalar a este contacto.

      • [Añadir contacto al caso/teléfono] este contacto.

    • Segundo contacto de escalada: [escalada EmailAddress #2]/[PhoneNumber] - Espere XX minutos antes de pasar a este contacto.

      • [Añadir contacto al caso/teléfono] este contacto.

    • etc.

Planes de comunicación

En esta sección se describe cómo los ingenieros de gestión de incidentes se comunican con las partes interesadas designadas fuera de los canales de comunicación y llamadas ante incidentes.

  • Plan de comunicación de impacto

    Este plan se inicia cuando AWS Incident Detection and Response determina, a partir del paso Triage, que una alerta indica un posible impacto en un cliente.

    AWS Incident Detection and Response solicitará al cliente que se una al puente predeterminado, tal como se indica en Planes de participación: configuración de llamadas ante incidentes.

    (Elija uno en función de si One Time Only Contacts está disponible o no).

    1. Asegúrese de que las partes interesadas de los clientes no cuenten con los planes de participación: la participación inicial se añade al CC del caso.

    OR

    1. Asegúrese de que los clientes interesados y las partes interesadas se comuniquen una sola vez en los planes de participación: la participación inicial se agrega al CC del caso.

    2. Envía la notificación de compromiso al cliente según la siguiente plantilla:

      (Elige una opción)

      Plantilla de impacto: Amazon Chime Bridge

      The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Amazon Chime Bridge below so we can start the steps outlined in your Runbook: Amazon Chime Meeting ID: <insert_Meeting_ID_here> Link to Amazon Chime Bridge: <insert_Link_here> International dial-in numbers: https://chime.aws/dialinnumbers/

      Plantilla de impacto: puente proporcionado por el cliente

      The following alarm has engaged AWS Incident Detection and Response: Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025 3:30 PM UTC> Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook.

      Plantilla de impacto: Customer Static Bridge

      The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - <insert CloudWatch Alarm ARN or APM Response Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Please join the Bridge below so we can start the steps outlined in your Runbook: Conference Number: <insert_conference_number> Conference URL: <insert_bridge_URL>
    3. Defina el caso como Acción pendiente del cliente.

    4. Elimine los contactos únicos de la caja después de enviar la comunicación de impacto anterior. (Si los contactos de un solo uso están disponibles).

    5. Siga el plan de intensificación de la participación mencionado anteriormente.

    6. Si el cliente no responde en 30 minutos, desconéctelo y continúe monitoreando hasta que se recupere la alarma.

  • Plan de comunicación sin impacto

    Este plan se inicia cuando una alarma se recupera antes de que la detección y respuesta a incidentes hayan completado la clasificación inicial.

    1. Antes de enviar la notificación sin impacto, verifique y, a continuación, elimine los and/or contactos de Soporte Case CC y, a continuación, elimine los contactos que figuran en los planes de participación (plan de participación inicial).

      ["NO añadas contactos de una sola vez"]. (Aplicable si los contactos de un solo uso están disponibles).

    2. Envía una notificación de no participación al cliente según la siguiente plantilla:

      Plantilla sin impacto

      AWS Incident Detection and Response received an alarm that has recovered for your workload. Alarm Identifier - <insert_CloudWatch_Alarm_ARN_or_APM_Response_Identifier> Alarm State Change Reason - <insert_state_change_reason> Alarm Start Time - <Example: 1 January 2025, 3:30 PM UTC> Alarm End Time - <Example: 1 January 2025, 3:35 PM UTC> This may indicate a brief customer impact that is currently not ongoing. If there is an ongoing impact to your workload, please let us know and we will engage to assist.
    3. Coloca el caso en Pending Customer Action.

    4. Si el cliente no responde en 30 minutos, resuelve el caso.

Descripción general de la arquitectura de aplicaciones

En esta sección se proporciona una descripción general de la application/workload arquitectura para que los ingenieros de gestión de incidentes y de operaciones los conozcan.

  • AWS Cuentas y regiones con servicios clave: lista de AWS cuentas con regiones compatibles con esta aplicación. Ayuda a los ingenieros a evaluar la infraestructura subyacente que respalda la aplicación.

    • 123456789012

      • US-EAST-1 - una breve descripción, según proceda

        • Amazon EC2: breve descripción, según proceda

        • DynamoDB: breve descripción, según proceda

        • etc.

      • US-WEST-1 - una breve descripción, según proceda

        • etc.

    • otra cuenta

      • etc.