Evaluación de alarmas
Estados de las alarmas de métricas
Una alarma de métrica tiene los siguientes estados posibles:
-
OK: la métrica o expresión está dentro del umbral definido. -
ALARM: la métrica o expresión está fuera del umbral definido. -
INSUFFICIENT_DATA: la alarma acaba de iniciarse, la métrica no está disponible o no hay suficientes datos disponibles en la métrica para determinar el estado de la alarma.
Estado de evaluación de la alarma
Además del estado de alarma, cada alarma tiene un estado de evaluación que proporciona información sobre el proceso de evaluación de dicha alarma. Pueden producirse los siguientes estados:
-
PARTIAL_DATA: indica que no se pudieron recuperar todos los datos disponibles debido a las limitaciones de cuota. Para obtener más información, consulte Cómo se gestionan los datos parciales. -
EVALUATION_ERROR: indica los errores de configuración en la configuración de la alarma que requieren revisión y corrección. Consulte el campo StateReason de la alarma para obtener más información. -
EVALUATION_FAILURE: indica problemas temporales con CloudWatch. Recomendamos la supervisión manual hasta que se resuelva el problema.
Puede ver el estado de la evaluación en los detalles de la alarma en la consola o mediante el comando describe-alarms de la CLI o la API DescribeAlarms.
Configuración de la evaluación de la alarma
Cuando crea una alarma, especifica tres valores para habilitar CloudWatch a fin de evaluar cuándo se debe cambiar el estado de la alarma:
-
Período es la duración de tiempo para evaluar la métrica o expresión para crear cada punto de datos individual para una alarma. Se expresa en segundos.
-
Evaluation Periods (Período de evaluación) es el número de los periodos más recientes, o de los puntos de datos, para evaluar a la hora de determinar el estado de la alarma.
-
Datapoints to Alarm (Puntos de datos para la alarma) es el número de puntos de datos en el periodo de evaluación que deben estar fuera del umbral para provocar que la alarma tenga el estado
ALARM. No es necesario que los puntos de datos fuera del umbral sean consecutivos, pero todos ellos deben estar dentro de la última cantidad de puntos de datos igual al Evaluation Period (Periodo de evaluación).
Para cualquier período de un minuto o más, se evalúa una alarma cada minuto y la evaluación se basa en el intervalo de tiempo definido por el Período y los Períodos de evaluación. Por ejemplo, si el Período es de 5 minutos (300 segundos) y los Períodos de evaluación son 1, al final del minuto 5, la alarma se evalúa en función de los datos de los minutos 1 a 5. Luego, al final del minuto 6, la alarma se evalúa en función de los datos de los minutos 2 a 6.
Si el periodo de alarma es de 10, 20 o 30 segundos, la alarma se evalúa cada 10 segundos. Para obtener más información, consulte Alarmas de alta resolución.
Si el número de periodos de evaluación multiplicado por la duración de cada periodo de evaluación excede un día, la alarma se evalúa una vez cada hora. Para obtener más información sobre cómo se evalúan estas alarmas de varios días, consulte Ejemplo de evaluación de una alarma de varios días.
En la siguiente figura, el umbral de alarma de una métrica de alarma está definido en tres unidades. El Evaluation Period (Período de evaluación) y los Datapoints to Alarm (Puntos de datos para la alarma) son 3. Es decir, cuando los puntos de datos existentes en los últimos tres periodos consecutivos superan el umbral, la alarma pasa al estado ALARM. En la figura, esto sucede en los periodos de tiempo del tercero al quinto. En el sexto período, el valor cae por debajo del umbral, por lo que uno de los períodos que se evalúa no está fuera del umbral y el estado de la alarma cambia a OK. Durante el noveno período de tiempo, el umbral se incumple de nuevo, pero solo para un periodo. Por lo tanto, el estado de la alarma se mantiene OK.
Al configurar Evaluation Periods (Períodos de evaluación) y Datapoints to Alarm (Puntos de datos para la alarma) como valores distintos, se establece una alarma ‘M de N’. Puntos de datos para la alarma es (“M”) y Periodos de evaluación es (“N”). El intervalo de evaluación es el número de periodos de evaluación multiplicado por la duración del periodo. Por ejemplo, si configura 4 de 5 puntos de datos con un periodo de 1 minuto, el intervalo de evaluación es de 5 minutos. Si configura 3 de 3 puntos de datos con un periodo de 10 minutos, el intervalo de evaluación es de 30 minutos.
nota
Si faltan puntos de datos poco después de crear una alarma y la métrica se estaba notificando a CloudWatch antes de crear la alarma, CloudWatch recupera los puntos de datos más recientes antes de que se creara la alarma a la hora de evaluar la alarma.
Alarmas de alta resolución
Si configura una alarma en una métrica de alta resolución, puede especificar una alarma de alta resolución con un periodo de 10, 20 o 30 segundos. El cargo es mayor en el caso de las alarmas de alta resolución. Para obtener más información acerca de las métricas de alta resolución, consulte Publish custom metrics.
Ejemplo de evaluación de una alarma de varios días
Una alarma es una alarma de varios días si el número de periodos de evaluación multiplicado por la duración de cada periodo de evaluación excede un día. Las alarmas de varios días se evalúan una vez cada hora. Cuando se evalúan las alarmas de varios días, CloudWatch solo tiene en cuenta las métricas hasta la hora actual en el minuto :00 en el momento de la evaluación.
Por ejemplo, pensemos en una alarma que supervisa un trabajo que se ejecuta cada 3 días a las 10:00.
-
A las 10:02, el trabajo presenta un error
-
A las 10:03, la alarma se evalúa y permanece en estado
OK, ya que la evaluación considera los datos solo hasta las 10:00. -
A las 11:03, la alarma considera los datos recabados hasta las 11:00 y pasa al estado
ALARM. -
A las 11:43, corrige el error y el trabajo ahora se ejecuta correctamente.
-
A las 12:03, la alarma vuelve a evaluarse, detecta que el trabajo se ha realizado correctamente y vuelve al estado
OK.