Supervisión de las implementaciones para su restauración automática

Durante una implementación, puede mitigar las situaciones en las que los datos de configuración mal formados o incorrectos provocan errores en su aplicación mediante una combinación de estrategias de AWS AppConfig implementación y reversiones automáticas basadas en las alarmas de Amazon CloudWatch . Una vez configuradas, si una o más CloudWatch alarmas pasan al INSUFFICIENT_DATA estado ALARM o durante una implementación, revierte AWS AppConfig automáticamente los datos de configuración a la versión anterior, lo que evita interrupciones o errores en las aplicaciones.

nota

Una implementación no se revierte automáticamente si las acciones se han desactivado en una CloudWatch alarma asociada.

Puede deshabilitar y activar las alarmas mediante las acciones DisableAlarmActionsy la EnableAlarmActionsAPI, o los comandos disable-alarm-actions y enable-alarm-actions del. AWS CLI

También puedes revertir una configuración llamando a la operación de la API mientras la implementación aún está en curso. StopDeployment

importante

En el caso de las implementaciones que se completan correctamente, AWS AppConfig también es posible revertir los datos de configuración a una versión anterior mediante el uso del AllowRevert parámetro junto con la operación de la StopDeploymentAPI. Para algunos clientes, volver a una configuración anterior después de una implementación exitosa garantiza que los datos serán los mismos que antes de la implementación. La reversión también ignora la supervisión de la alarma, lo que puede impedir que se produzca una puesta al día durante una emergencia con la aplicación. Para obtener más información, consulte Cómo revertir una configuración.

Para configurar las reversiones automáticas, debe especificar el nombre de recurso de Amazon (ARN) de una o CloudWatch más métricas en CloudWatch el campo de alarmas al crear (o editar) AWS AppConfig un entorno. Para obtener más información, consulte Creación de entornos para su aplicación en AWS AppConfig.

nota

Si utiliza una solución de monitoreo de terceros (por ejemplo, Datadog o New Relic), puede crear una AWS AppConfig extensión que compruebe si hay alarmas en el punto de AT_DEPLOYMENT_TICK acción y, como barrera de seguridad, revierta la implementación si se activa una alarma. Para obtener más información, consulte los siguientes ejemplos de integración de Datadog y New Relic en: GitHub

Para obtener más información sobre AWS AppConfig las extensiones, consulte los siguientes temas:

Métricas recomendadas para supervisar la restauración automática

Las métricas que decida supervisar dependerán del hardware y el software que utilicen sus aplicaciones. AWS AppConfig los clientes suelen supervisar las siguientes métricas. Para obtener una lista completa de las métricas recomendadas agrupadas por Servicio de AWS, consulta Alarmas recomendadas en la Guía del CloudWatch usuario de Amazon.

Una vez que hayas determinado las métricas que deseas monitorear, úsalas CloudWatch para configurar las alarmas. Para obtener más información, consulta Cómo usar CloudWatch las alarmas de Amazon.

Servicio	Métrica	Details
Amazon API Gateway	4XXError	Esta alarma detecta una tasa elevada de errores del lado del cliente. Esto puede indicar un problema en los parámetros de autorización o de la solicitud del cliente. También, puede significar que se ha eliminado un recurso o que un cliente solicita uno que no existe. Considera habilitar Amazon CloudWatch Logs y comprobar si hay algún error que pueda estar causando los errores 4XX. Además, considere la posibilidad de habilitar CloudWatch métricas detalladas para ver esta métrica por recurso y método y reducir el origen de los errores. Los errores también pueden deberse a que se supera la limitación configurada.
Amazon API Gateway	5XXError	Esta alarma ayuda a detectar una alta tasa de errores del lado del servidor. Esto puede indicar que hay algún problema en el backend de la API, en la red o en la integración entre la puerta de enlace de la API y la API del backend.
Amazon API Gateway	Latencia	Esta alarma detecta una latencia elevada en una etapa. Encuentre el valor de la métrica `IntegrationLatency` para comprobar la latencia del backend de la API. Si las dos métricas están casi alineadas, el backend de la API es el origen de la latencia más alta, por lo que debería investigar si hay algún problema. Considere también la posibilidad de habilitar CloudWatch los registros y comprobar si hay errores que puedan estar causando la alta latencia.
Amazon EC2 Auto Scaling	GroupInServiceCapacity	Esta alarma ayuda a detectar cuando la capacidad del grupo está por debajo de la capacidad deseada requerida para la carga de trabajo. Para solucionar el problema, compruebe si sus actividades de escalado fallaron en el lanzamiento y confirme que la configuración de capacidad deseada es la correcta.
Amazon EC2	CPUUtilization	Esta alarma ayuda a supervisar el uso de la CPU de una instancia de EC2. En función de la aplicación, puede que los niveles de utilización siempre altos sean normales. Sin embargo, si el rendimiento se reduce y la aplicación no está limitada por los recursos de disco I/O, memoria o red, una CPU al máximo podría indicar un cuello de botella en los recursos o problemas de rendimiento de la aplicación.
Amazon ECS	CPUReservation	Esta alarma le ayuda a detectar una reserva de CPU elevada en el clúster ECS. Una reserva de CPU elevada puede indicar que el clúster se está quedando sin CPU registradas para la tarea.
Amazon ECS	HTTP _5xx_Count Code_Target	Esta alarma ayuda a detectar un recuento elevado de errores del lado del servidor en el servicio de ECS. Esto puede indicar que hay errores que hacen que el servidor no pueda atender las solicitudes.
Amazon EKS con Información de contenedores	node_cpu_utilization	Esta alarma ayuda a detectar un uso elevado de la CPU en los nodos de trabajo del clúster de Amazon EKS. Si la utilización es elevada de forma constante, podría indicar la necesidad de reemplazar los nodos de trabajo por instancias que tengan mayor CPU o la necesidad de escalar horizontalmente el sistema.
Amazon EKS con Información de contenedores	node_memory_utilization	Esta alarma ayuda a detectar un uso elevado de la memoria en los nodos de trabajo del clúster de Amazon EKS. Si la utilización es elevada de forma constante, podría indicar la necesidad de aumentar el número de réplicas de los pods u optimizar la aplicación.
Amazon EKS con Información de contenedores	pod_cpu_utilization_over_pod_limit	Esta alarma ayuda a detectar un uso elevado de la CPU en los pods del clúster de Amazon EKS. Si la utilización es siempre alta, podría indicar la necesidad de aumentar el límite de la CPU del pod afectado.
Amazon EKS con Información de contenedores	pod_memory_utilization_over_pod_limit	Esta alarma ayuda a detectar un uso elevado de la CPU en los pods del clúster de Amazon EKS. Si la utilización es siempre alta, podría indicar la necesidad de aumentar el límite de la CPU del pod afectado.
AWS Lambda	Errores	Esta alarma detecta un alto número de errores. Los errores incluyen las excepciones lanzadas por el código y las excepciones lanzadas por el tiempo de ejecución de Lambda.
AWS Lambda	Limitaciones	Esta alarma detecta un número elevado de solicitudes de invocación limitadas. La limitación ocurre cuando no hay ninguna simultaneidad disponible para escalar verticalmente.
Lambda Insights	memory_utilization	Esta alarma se utiliza para detectar si la utilización de la memoria de una función de lambda se acerca al límite configurado.
Amazon S3	4xxErrors	Esta alarma nos ayuda a informar del número total de códigos de estado de error 4XX que se crean en respuesta a las solicitudes de los clientes. Por ejemplo, los códigos de error 403 pueden indicar una política de IAM incorrecta y los códigos de error 404 pueden indicar un mal comportamiento de la aplicación cliente.
Amazon S3	5xxErrors	Esta alarma ayuda a detectar una gran cantidad de errores por parte del servidor. Estos errores indican que un cliente realizó una solicitud que el servidor no pudo completar. Esto puede ayudarlo a correlacionar el problema al que se enfrenta su aplicación debido a S3.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Registrar métricas para AWS AppConfig llamadas de planos de datos

Historial de revisión