Dashboard-Einrichtung
Verwenden Sie die folgenden Informationen, um das Add-On „Beobachtbarkeits-EKS von Amazon CloudWatch von Amazon SageMaker HyperPod“ einzurichten. Dadurch erhalten Sie ein detailliertes visuelles Dashboard, das Ihnen einen Überblick über die Metriken für Ihre EKS-Cluster-Hardware, die Teamzuweisung und die Aufgaben bietet.
Falls Sie Schwierigkeiten bei der Einrichtung haben, finden Sie unter Fehlerbehebung bekannte Lösungen zur Fehlerbehebung.
Voraussetzungen für das Add-On „Beobachtbarkeits-EKS von Amazon SageMaker HyperPod“
Der folgende Abschnitt enthält die Voraussetzungen, die vor der Installation des Add-Ons „Beobachtbarkeits-EKS von Amazon“ erfüllt sein müssen.
-
Stellen Sie sicher, dass Sie über die Mindestberechtigungsrichtlinie für HyperPod-Cluster-Administratoren verfügen, in IAM-Benutzer für den Clusteradministrator.
-
Fügen Sie die CloudWatchAgentServerPolicy-IAM-Richtlinie an Ihre Worker-Knoten an. Geben Sie dazu den folgenden Befehl ein. Ersetzen Sie my-worker-node-role durch die IAM-Rolle, die von Ihren Kubernetes-Worker-Knoten verwendet wird.
aws iam attach-role-policy \
--role-name my-worker-node-role \
--policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
Einrichtung des Add-Ons „Beobachtbarkeits-EKS von Amazon SageMaker HyperPod“
Verwenden Sie die folgenden Optionen, um das Add-On „Beobachtbarkeits-EKS von Amazon CloudWatch von Amazon SageMaker HyperPod“ einzurichten.
- Setup using the SageMaker AI console
-
Die folgenden Berechtigungen sind für die Einrichtung und Visualisierung des Aufgaben-Governance-Dashboards von HyperPod erforderlich. In diesem Abschnitt werden die unter IAM-Benutzer für den Clusteradministrator aufgeführten Berechtigungen erweitert.
Verwenden Sie zur Verwaltung der Aufgaben-Governance die Beispielrichtlinie:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"sagemaker:ListClusters",
"sagemaker:DescribeCluster",
"sagemaker:ListComputeQuotas",
"sagemaker:CreateComputeQuota",
"sagemaker:UpdateComputeQuota",
"sagemaker:DescribeComputeQuota",
"sagemaker:DeleteComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"sagemaker:CreateClusterSchedulerConfig",
"sagemaker:UpdateClusterSchedulerConfig",
"sagemaker:DeleteClusterSchedulerConfig",
"eks:ListAddons",
"eks:CreateAddon",
"eks:DescribeAddon",
"eks:DescribeCluster",
"eks:DescribeAccessEntry",
"eks:ListAssociatedAccessPolicies",
"eks:AssociateAccessPolicy",
"eks:DisassociateAccessPolicy"
],
"Resource": "*"
}
]
}
Um Berechtigungen zum Verwalten von Beobachtbarkeits-EKS von Amazon CloudWatch und zum Anzeigen des HyperPod-Cluster-Dashboards über die SageMaker-AI-Konsole zu erteilen, verwenden Sie die folgende Beispielrichtlinie:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"sagemaker:ListComputeQuotas",
"sagemaker:DescribeComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"eks:DescribeCluster",
"cloudwatch:GetMetricData",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
Navigieren Sie in der SageMaker-HyperPod-Konsole zur Registerkarte Dashboard, um Beobachtbarkeits-EKS von Amazon CloudWatch zu installieren. Um sicherzustellen, dass Kennzahlen zur Aufgaben-Governance im Dashboard enthalten sind, aktivieren Sie das Kontrollkästchen „Kueue-Metriken“. Durch die Aktivierung der Kueue-Metriken werden CloudWatch-Metrikkosten aktiviert, sobald das kostenlose Kontingent ausgeschöpft ist. Weitere Informationen hierzu finden Sie unter Metriken in Amazon CloudWatch – Preise.
- Setup using the EKS AWS CLI
-
Geben Sie den folgenden EKS–AWS CLIBefehl ein, um das Add-On zu installieren:
aws eks create-addon --cluster-name cluster-name
--addon-name amazon-cloudwatch-observability
--configuration-values "configuration json"
Nachfolgend finden Sie ein Beispiel für die JSON-Konfigurationswerte:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
}
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
- Setup using the EKS Console UI
-
-
Navigieren Sie zur EKS-Konsole.
-
Wählen Sie Ihren Cluster aus.
-
Wählen Sie Add-Ons aus.
-
Suchen Sie das Add-On Amazon-CloudWatch-Beobachtbarkeit und installieren Sie es. Installieren Sie Version >= 2.4.0 für das Add-on.
-
Fügen Sie die folgenden JSON-Konfigurationswerte ein:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
},
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
Sobald das Add-On „EKS-Beobachtbarkeit“ erfolgreich installiert wurde, können Sie Ihre EKS-Cluster-Metriken unter der Registerkarte Dashboard der HyperPod-Konsole anzeigen.