Reglas de silencio de alarmas - Amazon CloudWatch

Reglas de silencio de alarmas

Reglas de silencio de alarmas es una característica de CloudWatch que le proporciona un mecanismo para silenciar automáticamente las acciones de alarma durante periodos de tiempo predefinidos. Al crear una regla de silencio, se definen periodos de tiempo específicos que se aplican a las alarmas cuyas acciones se silenciarán. CloudWatch seguirá supervisando y evaluando los estados de alarma y, al mismo tiempo, evitará las notificaciones no deseadas o las acciones de alarma automatizadas durante los eventos operativos previstos.

Las reglas de silencio de alarmas le permiten gestionar situaciones operativas críticas en las que las acciones de alarma serían innecesarias o perjudiciales. Por ejemplo, durante los periodos de mantenimiento planificados, puede evitar las acciones de alarma automatizadas cuando sus sistemas estén fuera de servicio intencionalmente o tengan problemas esperados, lo que le permitirá hacer el mantenimiento sin interrupciones. En el caso de las operaciones que tengan lugar fuera del horario laboral, como los fines de semana o los días festivos, puede silenciar las acciones de alarma no críticas cuando no se requiera una respuesta inmediata, lo que reduce el ruido generado por las alarmas y las notificaciones innecesarias enviadas al equipo de operaciones. En los entornos de pruebas, las reglas de silencio permiten silenciar temporalmente las acciones de alarma durante situaciones como las pruebas de carga, en las que se espera un alto consumo de recursos o tasas de error y no requieren atención inmediata. Cuando su equipo resuelva problemas de forma activa, las reglas de silencio le permiten evitar que se activen acciones de alarma duplicadas, lo que le permite centrarse en la resolución sin distracciones provocadas por notificaciones de alarma redundantes.

Definición de las reglas de silencio de alarmas

Las reglas de silencio de alarmas se pueden definir mediante reglas y destinos.

  • Reglas: definen los intervalos de tiempo en los que se deben silenciar las acciones de alarma. Las reglas se componen de tres atributos:

    • Expresión: define cuándo comienza el periodo de silencio y cómo se repite. Puede utilizar dos tipos de expresiones:

      • Expresiones cron: utilice la sintaxis cron estándar para crear periodos de silencio recurrentes. Este enfoque es ideal para las tareas de mantenimiento programadas de forma periódica, como las actualizaciones semanales del sistema o las operaciones de creación de copias de seguridad diarias. Las expresiones cron permiten especificar patrones recurrentes complejos, como horas, días de la semana o meses específicos.

        Sintaxis de la expresión cron

        ┌───────────── minute (0 - 59) │ ┌───────────── hour (0 - 23) │ │ ┌───────────── day of the month (1 - 31) │ │ │ ┌───────────── month (1 - 12) (or JAN-DEC) │ │ │ │ ┌───────────── day of the week (0 - 6) (0 or 7 is Sunday, or MON-SUN) │ │ │ │ │ │ │ │ │ │ * * * * *
        • Los caracteres*, , y - se admiten en todos los campos.

        • Se pueden usar nombres en inglés para los camposmonth (JAN-DEC) y day of week (SUN-SAT).

      • Expresiones at: utilice las expresiones at para silenciar periodos una sola vez. Este enfoque funciona bien para los eventos operativos planificados que se producen de forma puntual.

        Syntax: `at(yyyy-MM-ddThh:mm)`
    • Duración: especifica cuánto dura la regla de silencio una vez activada. La duración debe especificarse siguiendo el formato ISO-8601, con un mínimo de 1 minuto (PT1M) y un máximo de 15 días (P15D).

    • Zona horaria: especifica la zona horaria en la que se aplicará el periodo de silencio según las expresiones utilizadas, usando identificadores de zona horaria estándar como “America/Los_Angeles” o “Europe/London”.

  • Objetivos: especifique la lista de nombres de alarmas cuyas acciones se silenciarán durante los periodos de tiempo definidos. Puede incluir alarmas de métricas y alarmas compuestas en la lista de objetivos.

Si lo desea, puede incluir marcas de tiempo de inicio y fin para proporcionar límites adicionales a los periodos de silencio. Las marcas de tiempo de inicio garantizan que las reglas de silencio no se activen antes de una fecha y hora específicas, mientras que las marcas de tiempo de fin impiden que las reglas se apliquen más allá de la fecha y hora especificadas.

Para obtener más información sobre cómo crear reglas de silencio de alarmas mediante programación, consulte PutAlarmMuteRule.

nota
  • Las alarmas objetivo deben estar en las mismas Cuenta de AWS y Región de AWS en las que se crearon la regla de silencio.

  • Una sola regla de silencio de alarmas puede aplicarse a un máximo de 100 alarmas por nombre de alarma.

La consola de CloudWatch incluye una pestaña Reglas del silencio de alarmas dedicada, la cual permite administrar de forma centralizada todas las reglas de silencio dentro de su Cuenta de AWS. Puede buscar reglas de silencio específicas mediante los atributos de reglas de silencio, como el nombre de la regla.

Estado de la regla de silencio

Una vez creada, una regla de silencio de alarmas puede tener uno de los siguientes tres estados:

  • PROGRAMADA: la regla de silencio se activará en algún momento en el futuro según la expresión de periodo de tiempo configurada.

  • ACTIVA: la regla de silencio está activa actualmente según la expresión de periodo temporal configurada y silencia activamente las acciones de alarma específicas.

  • CADUCADA: la regla de silencio ya no estará PROGRAMADA ni ACTIVA en el futuro. Esto ocurre con las reglas de silencio de uso puntual una vez finalizado el periodo de silencio, o con las reglas de silencio recurrentes cuando se configura una marca de tiempo de fin que ya ha pasado.

Efectos de las reglas de silencio en las alarmas

Durante un periodo de silencio activo, cuando una alarma de destino cambia de estado y tiene acciones configuradas, CloudWatch silencia esas acciones para que no se pongan en marcha. Los silencios se aplican solo a las acciones de alarma, lo que significa que las alarmas se siguen evaluando y los cambios de estado son visibles en la consola de CloudWatch, pero las acciones configuradas, como las notificaciones de Amazon Simple Notification Service, las acciones de Amazon Elastic Compute Cloud Auto Scaling o las acciones de Amazon EC2, no se pueden poner en marcha. CloudWatch sigue evaluando los estados de alarma con normalidad durante el periodo de silencio; puede ver esta información en el historial de alarmas.

Cuando finaliza una periodo de silencio, si las alarmas objetivo permanecen en un estado alarmante (OK/ALARM/INSUFFICIENT_DATA), CloudWatch vuelve a activar automáticamente las acciones de alarma que estaban silenciadas durante el periodo. Esto garantiza que las acciones de alarma se pongan en marcha si se experimentan problemas persistentes una vez finalizado el periodo de silencio planificado, manteniendo la integridad del sistema de supervisión.

nota

Al silenciar una alarma, ocurre lo siguiente:

  • Se silencian todas las acciones asociadas a las alarmas específicas

  • Se silencian las acciones asociadas a todos los estados de alarma (OK, ALARM, and INSUFFICIENT_DATA)

Para obtener información sobre cómo ver y administrar las alarmas silenciadas, consulte Visualización y administración de las alarmas silenciadas.

Programaciones de ejemplo para casos de uso habituales

Los siguientes ejemplos muestran cómo configurar las expresiones de periodo de tiempo para casos de uso comunes.

Escenario 1: silenciamiento de las acciones de alarma durante los periodos de mantenimiento programados: actividades de mantenimiento periódicas que se llevan a cabo siguiendo un cronograma predecible, como las actualizaciones del sistema o de la base de datos cuando los servicios están deliberadamente no disponibles o funcionando de manera degradada.

  • Expresión cron 0 2 * * SUN con una duración PT4H: silencia las alarmas todos los domingos de 2:00 h a 6:00 h para realizar un mantenimiento semanal del sistema.

  • Expresión cron 0 1 1 * * con una duración PT6H: silencia las alarmas el primer día de cada mes, de 1:00 h a 7:00 h, para realizar el mantenimiento mensual de la base de datos.

Escenario 2: silenciamiento de las alarmas no críticas fuera del horario laboral: se reduce el número de alertas enviadas durante los fines de semana o los días festivos cuando no se requiera atención inmediata.

  • Expresión cron 0 18 * * FRI con una duración P2DT12H: silencia las alarmas todos los fines de semana desde el viernes a las 18:00 h hasta el lunes a las 06:00 h.

Escenario 3: silenciamiento de las alarmas de rendimiento durante las operaciones de creación de copias de seguridad diarias: procesos de creación de copias de seguridad automatizados diarios que aumentan temporalmente la utilización de los recursos y pueden activar alarmas relacionadas con el rendimiento durante periodos de tiempo predecibles.

  • Expresión cron 0 23 * * * con una duración PT2H: silencia las alarmas todos los días de 11:00 h a 1:00 h durante las operaciones de creación de copias de seguridad nocturnas, lo que aumenta temporalmente la utilización de la CPU y la E/S del disco.

Escenario 4: silenciamiento de las alarmas duplicadas durante las sesiones activas de resolución de problemas: silenciamiento temporal de las acciones de alarma mientras los equipos investigan y resuelven los problemas de forma activa, lo que evita el ruido de las notificaciones y permite una resolución específica del problema.

  • Expresión at at(2024-05-10T14:00) con una duración PT4H: silencia las alarmas el 10 de mayo de 2024 entre las 14:00 h y las 18:00 h, durante una sesión activa de respuesta a incidentes.

Escenario 5: silenciamiento de las acciones de alarma durante las suspensiones planificadas de la empresa: periodos de mantenimiento prolongados puntuales o suspensiones de la empresa en las que todos los sistemas permanecen fuera de servicio intencionalmente durante periodos prolongados.

  • Expresión at at(2024-12-23T00:00) con una duración P7D: silencia las alarmas durante toda la semana del 23 al 29 de diciembre de 2024 durante el cierre anual de la empresa.