Terminología de los informes de incidentes
Se utilizan los siguientes términos en los informes de incidentes de Investigaciones de CloudWatch:
- Hecho derivado de la IA
-
Un dato u observación que el sistema de IA considera objetivamente verdadero o muy probable en función de los datos disponibles, la telemetría, los registros y los patrones históricos de los servicios de AWS. Estos hechos se obtienen mediante el análisis algorítmico y los modelos de machine learning y, si bien el sistema los considera fiables, deberían estar sujetos a la verificación humana, especialmente en contextos críticos para la toma de decisiones. Los hechos derivados de la IA pueden incluir correlaciones entre eventos, detecciones de anomalías o inferencias sobre el comportamiento del sistema que podrían no ser evidentes de inmediato para los operadores humanos.
- Acciones correctivas
-
Pasos específicos prácticos recomendados por Investigaciones de CloudWatch para abordar la causa raíz de un incidente y evitar que se repita, según las prácticas recomendadas de AWS y el contexto específico de los recursos afectados.
- Categorías de hechos
-
Agrupaciones estructuradas de información relacionada con incidentes, como las métricas de impacto, los detalles de la detección y las medidas de mitigación, que se utilizan para organizar los datos para la generación de informes.
- Evaluación del impacto
-
Evaluación cuantitativa y cualitativa de los efectos de un incidente en el rendimiento del sistema, la experiencia del usuario y las operaciones empresariales, derivada de las métricas de CloudWatch y otros datos del servicio de AWS agregados a la investigación.
- Generación de informes de incidentes
-
Proceso automatizado que crea una documentación exhaustiva de un incidente operativo, como su escala de tiempo, impacto, causa raíz y pasos de resolución, en función de los datos recopilados durante una investigación de Investigaciones de CloudWatch.
- Archivo de investigaciones
-
Visualización cronológica de las observaciones, hipótesis y notas agregadas por el usuario que se han aceptado en una investigación de CloudWatch, que sirve como registro principal del progreso y los resultados de la investigación.
- Lecciones aprendidas
-
Información y oportunidades de mejora generadas automáticamente que se identificaron a través del proceso de investigación de incidentes, con el objetivo de mejorar la fiabilidad del sistema, la eficiencia operativa y las capacidades de respuesta ante incidentes en toda la organización.
- Evaluación de informes
-
Evaluación automática del informe de incidentes generado, que identifica posibles deficiencias en los datos o áreas que requieren información adicional para mejorar la integridad y la calidad del informe.
- Análisis de causa raíz
-
Un proceso sistemático de identificación del motivo fundamental de un problema operativo, que aprovecha las correlaciones e hipótesis basadas en IA de Investigaciones de CloudWatch en varios servicios de AWS.
- Pestaña Sugerencias
-
Característica de Investigaciones de CloudWatch que presenta hipótesis y observaciones generadas por IA sobre posibles causas o problemas relacionados, en función del análisis de los registros y la telemetría del sistema.
- Eventos de línea de tiempo
-
Secuencia cronológica de los sucesos importantes ocurridos durante un incidente, extraída automáticamente de los registros, las métricas y otros datos de servicios de AWS de CloudWatch para ofrecer información general clara de la progresión del incidente.