View a markdown version of this page

Pruebe las cargas de trabajo integradas en la detección y respuesta a incidentes - Guía del usuario de detección y respuesta a incidentes de AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Pruebe las cargas de trabajo integradas en la detección y respuesta a incidentes

Una vez Ingestión de alarmas finalizado, AWS Incident Detection and Response permite monitorizar la carga de trabajo y envía una Go-Live confirmación. Su carga de trabajo se monitorea activamente a partir de este momento.

Las pruebas de alarmas validan que las alarmas integradas activen AWS Incident Detection and Response según lo esperado, activen los manuales de ejecución adecuados y cualquier otra acción deseada, como la creación automática de casos si la seleccionó durante la ingesta de alarmas.

Las pruebas son opcionales, pero se recomienda encarecidamente. Eres responsable de validar tus mecanismos de respuesta antes de que se produzca un incidente real.

Opciones de prueba

AWS Incident Detection and Response ofrece dos opciones de prueba.

Opción 1: programada GameDay (recomendada)

Una programación GameDay es una simulación integral en vivo de lo que podría ocurrir durante un incidente real. AWS Incident Detection and Response sigue los pasos del manual prescrito para proporcionarle información sobre cómo podría desarrollarse un incidente real. GameDay Es una oportunidad para que formule preguntas o perfeccione las instrucciones para mejorar la participación.

Para programar una GameDay, sigue estos pasos:
  1. Notifique a AWS Incident Detection and Response con una fecha preferida y un intervalo de tiempo de 1 hora, incluida la zona horaria. Proporcione un plazo de entrega de al menos 48 horas.

  2. Planifique los recursos para el GameDay, incluidos su SRE/Ops equipo y los contactos de escalación.

GameDay horario:

  1. Usted y AWS Incident Detection and Response se unen a la convocatoria.

  2. Usted desactiva las acciones de alarma, si procede.

  3. Para configurar manualmente las alarmas en el estado de ALARMA, siga las instrucciones que se indican en¿Cómo probar sus alarmas?.

  4. AWS Incident Detection and Response confirma la recepción de la notificación de alarma.

  5. AWS Incident Detection and Response responde a la alarma y se une al puente indicado en su manual.

  6. Usted y AWS Incident Detection and Response confirman el GameDay resultado.

Opción 2: pruebas de alarmas fuera de línea

Puede probar las alarmas de forma independiente en cualquier momento sin programar una llamada. Al activar una alarma, AWS Incident Detection and Response se activa según su manual, tal como lo haría durante un incidente real.

Para realizar una prueba de alarma sin conexión a Internet, complete los siguientes pasos:
  1. Para evitar acciones no deseadas, desactiva cualquier acción de CloudWatch alarma de Amazon.

  2. Activa tus alarmas siguiendo las instrucciones que se indican en¿Cómo probar sus alarmas?.

  3. En 5 minutos, se crea un caso de soporte en su nombre y AWS Incident Detection and Response se pone en contacto con usted según lo especificado en su manual.

  4. Notifique al administrador de incidentes que está realizando una prueba de alarma fuera de línea.

  5. El administrador de incidentes confirma qué cambios de estado de alarma se recibieron y valida las disposiciones de respuesta.

Si no se crea un caso de soporte en 5 minutos, envíe una solicitud de incidente para activar manualmente AWS Incident Detection and Response para la solución de problemas.

¿Cómo probar sus alarmas?

CloudWatch Alarmas Amazon

nota

El AWS Identity and Access Management usuario o rol que utilice para las pruebas de alarmas debe tener cloudwatch:SetAlarmState permiso.

Utilice AWS Command Line Interface o AWS CloudShellpara configurar manualmente la alarma en el estado de ALARMA. Estos comandos cambian el estado de la alarma sin afectar a la carga de trabajo.

Para evitar acciones no deseadas, por ejemplo, el reinicio de la instancia Amazon EC2, desactive CloudWatch cualquier acción de alarma antes de cambiar el estado de la alarma. Puede volver a activar las acciones de CloudWatch alarma una vez finalizadas las pruebas. Para obtener más información sobre cómo habilitar o deshabilitar las acciones de alarma, consulta DisableAlarmActionsy consulta EnableAlarmActionsla Amazon CloudWatch API Reference.

Desactivar las acciones de alarma:

aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Establezca el estado de alarma en ALARMA:

aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Re-enable acciones de alarma después de la prueba:

aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

El estado de alarma vuelve a funcionar automáticamente en unos segundos.

Alarmas compuestas

El set-alarm-state comando no garantiza que las alarmas compuestas vuelvan al estado correcto. Como práctica recomendada, compruebe el estado de las alarmas compuestas tras la comprobación. Para restablecer manualmente una alarma compuesta, utilice el siguiente comando:

aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Para obtener más información sobre cómo cambiar manualmente el estado de CloudWatch las alarmas, consulta SetAlarmStatela referencia de la CloudWatch API de Amazon.

Para obtener más información sobre los permisos necesarios para las operaciones de la CloudWatch API, consulta la referencia de CloudWatch permisos de Amazon.

Third-party Alarmas APM

Las cargas de trabajo que utilizan una herramienta de monitoreo del rendimiento de las aplicaciones (APM) de terceros, como Datadog, Splunk, New Relic o Dynatrace, requieren instrucciones diferentes para simular una alarma.

  1. Desactiva las acciones de alarma en tu APM para evitar acciones no deseadas.

  2. Modifique el umbral de alarma o el operador de comparación para forzar la alarma a pasar al estado de ALARMA. Esto activa una carga útil para AWS Incident Detection and Response.

  3. Una vez finalizadas las pruebas, revierta el umbral o el operador de comparación cambia para restablecer el estado correcto de la alarma.

Resultados clave

Tras realizar las pruebas satisfactoriamente:

  • Se confirma la entrada de la alarma y la configuración de la alarma es correcta.

  • AWS Incident Detection and Response recibe las alarmas.

  • Se crea un caso de soporte y se notifica a los contactos prescritos.

  • AWS Incident Detection and Response lo contacta con los medios de conferencia prescritos.

  • Se resuelven todas las alarmas y los casos de soporte generados durante las pruebas.

Preguntas frecuentes

¿Las pruebas de alarma son obligatorias?

No. Las pruebas son opcionales, pero se recomienda encarecidamente validar sus acuerdos de respuesta integrales antes de que se produzca un incidente real.

¿Se verá afectada mi carga de trabajo?

No. Sin embargo, durante las pruebas se activan todas las acciones de alarma configuradas en las alarmas, a menos que las desactive. Desactive las acciones de alarma antes de realizar las pruebas para evitar impactos no deseados.

¿A quién se notifica durante las pruebas?

Durante una sesión programada GameDay, se contacta con todos los contactos y rutas de escalamiento de tu lista de seguimiento para su verificación. Durante las pruebas de alarma fuera de línea, solo se notifica al contacto inicial especificado durante la activación de la alarma.

¿Puedo responder por correo electrónico a las actualizaciones de los casos?

No. Las copias por correo electrónico de la Soporte correspondencia de los casos se envían desde una dirección en la que no hay respuesta. Para actualizar un caso, usa el. AWS Support Center Console

¿Cómo solicito una puesta en marcha GameDay posterior?

Responda a su caso de soporte de incorporación actual, si existe, o cree un. Solicita cambios en una carga de trabajo integrada en la sección Detección y respuesta a incidentes