Configuración del panel
Utilice la siguiente información para configurar el complemento de observabilidad de EKS de Amazon CloudWatch de Amazon SageMaker HyperPod. Este complemento le proporciona un panel visual detallado de las métricas del hardware del clúster de EKS, la asignación de equipos y las tareas.
Si tiene problemas con la configuración, consulte Solución de problemas para ver las soluciones de problemas conocidos.
Requisitos previos del complemento de observabilidad de EKS de Amazon CloudWatch de HyperPod
En la siguiente sección se incluyen los requisitos previos necesarios antes de instalar el complemento de observabilidad de Amazon EKS.
-
Asegúrese de aplicar la política de privilegios mínimos para los administradores de clústeres de HyperPod en Usuarios de IAM para la administración de clústeres.
-
Asocie la política de IAM CloudWatchAgentServerPolicy a sus nodos de trabajo. Para ello, introduzca el siguiente comando. Sustituya my-worker-node-role por el rol de IAM que utilizan sus nodos de trabajo de Kubernetes.
aws iam attach-role-policy \
--role-name my-worker-node-role \
--policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
Configuración del complemento de observabilidad de EKS de Amazon CloudWatch de HyperPod
Utilice las siguiente opciones para configurar el complemento de observabilidad de EKS de Amazon CloudWatch de Amazon SageMaker HyperPod.
- Setup using the SageMaker AI console
-
Se requieren los siguientes permisos para configurar y visualizar el panel de gobernanza de tareas de HyperPod. En esta sección se amplían los permisos que se enumeran en Usuarios de IAM para la administración de clústeres.
Para administrar la gobernanza de tareas, utilice la política de ejemplo:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"sagemaker:ListClusters",
"sagemaker:DescribeCluster",
"sagemaker:ListComputeQuotas",
"sagemaker:CreateComputeQuota",
"sagemaker:UpdateComputeQuota",
"sagemaker:DescribeComputeQuota",
"sagemaker:DeleteComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"sagemaker:CreateClusterSchedulerConfig",
"sagemaker:UpdateClusterSchedulerConfig",
"sagemaker:DeleteClusterSchedulerConfig",
"eks:ListAddons",
"eks:CreateAddon",
"eks:DescribeAddon",
"eks:DescribeCluster",
"eks:DescribeAccessEntry",
"eks:ListAssociatedAccessPolicies",
"eks:AssociateAccessPolicy",
"eks:DisassociateAccessPolicy"
],
"Resource": "*"
}
]
}
Para conceder permisos para administrar el complemento de observabilidad de Amazon EKS de Amazon CloudWatch y ver el panel del clúster de HyperPod a través de la consola de SageMaker AI, utilice la política de ejemplo que se muestra a continuación:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"sagemaker:ListComputeQuotas",
"sagemaker:DescribeComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"eks:DescribeCluster",
"cloudwatch:GetMetricData",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
Vaya a la pestaña Panel de la consola de SageMaker HyperPod para instalar el complemento de observabilidad de EKS de Amazon CloudWatch. Para asegurarse de que las métricas relacionadas con la gobernanza de tareas estén incluidas en el Panel, active la casilla de verificación de las métricas de Kueue. Al habilitar las métricas de Kueue, se generan costos de CloudWatch Metrics cuando se alcance el límite del nivel gratuito. Para obtener más información, consulte Métricas en Precios de Amazon CloudWatch.
- Setup using the EKS AWS CLI
-
Use el siguiente comando de la AWS CLI de EKS para instalar el complemento:
aws eks create-addon --cluster-name cluster-name
--addon-name amazon-cloudwatch-observability
--configuration-values "configuration json"
A continuación se muestra un ejemplo del JSON de los valores de configuración:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
}
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
- Setup using the EKS Console UI
-
-
Vaya a la consola de EKS.
-
Elija su clúster.
-
Elegir Complementos.
-
Busque el complemento de observabilidad de Amazon CloudWatch e instálelo. Instale la versión >= 2.4.0 del complemento.
-
Incluya los siguientes valores de configuración de JSON:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
},
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
Cuando se haya instalado correctamente el complemento de observabilidad de EKS, podrá ver las métricas del clúster de EKS en la pestaña Panel de la consola de HyperPod.