Terminología de los informes de incidentes - Amazon CloudWatch

Terminología de los informes de incidentes

Se utilizan los siguientes términos en los informes de incidentes de Investigaciones de CloudWatch:

Hecho derivado de la IA

Un dato u observación que el sistema de IA considera objetivamente verdadero o muy probable en función de los datos disponibles, la telemetría, los registros y los patrones históricos de los servicios de AWS. Estos hechos se obtienen mediante el análisis algorítmico y los modelos de machine learning y, si bien el sistema los considera fiables, deberían estar sujetos a la verificación humana, especialmente en contextos críticos para la toma de decisiones. Los hechos derivados de la IA pueden incluir correlaciones entre eventos, detecciones de anomalías o inferencias sobre el comportamiento del sistema que podrían no ser evidentes de inmediato para los operadores humanos.

Acciones correctivas

Pasos específicos prácticos recomendados por Investigaciones de CloudWatch para abordar la causa raíz de un incidente y evitar que se repita, según las prácticas recomendadas de AWS y el contexto específico de los recursos afectados.

Categorías de hechos

Agrupaciones estructuradas de información relacionada con incidentes, como las métricas de impacto, los detalles de la detección y las medidas de mitigación, que se utilizan para organizar los datos para la generación de informes.

Evaluación del impacto

Evaluación cuantitativa y cualitativa de los efectos de un incidente en el rendimiento del sistema, la experiencia del usuario y las operaciones empresariales, derivada de las métricas de CloudWatch y otros datos del servicio de AWS agregados a la investigación.

Generación de informes de incidentes

Proceso automatizado que crea una documentación exhaustiva de un incidente operativo, como su escala de tiempo, impacto, causa raíz y pasos de resolución, en función de los datos recopilados durante una investigación de Investigaciones de CloudWatch.

Archivo de investigaciones

Visualización cronológica de las observaciones, hipótesis y notas agregadas por el usuario que se han aceptado en una investigación de CloudWatch, que sirve como registro principal del progreso y los resultados de la investigación.

Lecciones aprendidas

Información y oportunidades de mejora generadas automáticamente que se identificaron a través del proceso de investigación de incidentes, con el objetivo de mejorar la fiabilidad del sistema, la eficiencia operativa y las capacidades de respuesta ante incidentes en toda la organización.

Evaluación de informes

Evaluación automática del informe de incidentes generado, que identifica posibles deficiencias en los datos o áreas que requieren información adicional para mejorar la integridad y la calidad del informe.

Análisis de causa raíz

Un proceso sistemático de identificación del motivo fundamental de un problema operativo, que aprovecha las correlaciones e hipótesis basadas en IA de Investigaciones de CloudWatch en varios servicios de AWS.

Pestaña Sugerencias

Característica de Investigaciones de CloudWatch que presenta hipótesis y observaciones generadas por IA sobre posibles causas o problemas relacionados, en función del análisis de los registros y la telemetría del sistema.

Eventos de línea de tiempo

Secuencia cronológica de los sucesos importantes ocurridos durante un incidente, extraída automáticamente de los registros, las métricas y otros datos de servicios de AWS de CloudWatch para ofrecer información general clara de la progresión del incidente.