Einrichtung der Aufgaben-Governance - Amazon SageMaker AI

Einrichtung der Aufgaben-Governance

Dieser Abschnitt enthält Informationen zur Einrichtung des EKS-Add-ons für die Aufgaben-Governance von Amazon SageMaker HyperPod. Dies umfasst die Erteilung von Berechtigungen, mit denen Sie die Priorisierung von Aufgaben, die Zuweisung von Rechenkapazitäten für Teams, die Verteilung ungenutzter Rechenkapazitäten und die Vorrangigkeit von Aufgaben für Teams festlegen können.

Falls Sie Schwierigkeiten bei der Einrichtung haben, finden Sie unter Fehlerbehebung bekannte Lösungen zur Fehlerbehebung.

Kueue-Einstellungen

Das EKS-Add-ons für die Aufgaben-Governance von HyperPod installiert Kueue für Ihre HyperPod-EKS-Cluster. Kueue ist ein Kubernetes-natives System, das Kontingente verwaltet und deren Verbrauch durch Aufträge regelt.

Add-on-Version für Aufgaben-Governance von EKS HyperPod Version von Kueue, die als Teil des Add-ons installiert wird

v1.1.3

v0.12.0

Anmerkung

Kueue v.012.0 und höher enthalten kueue-rbac-proxy nicht als Teil der Installation. In früheren Versionen war möglicherweise kueue-rbac-proxy installiert. Wenn Sie beispielsweise Kueue v0.8.1 verwenden, haben Sie möglicherweise kueue-rbac-proxy v0.18.1.

Die HyperPod-Aufgaben-Governance nutzt Kueue für Kubernetes-native Auftragswarteschlangen, Zeitplanung und Kontingentverwaltung und wird mit dem EKS-Add-on für Aufgaben-Governance von HyperPod installiert. Nach der Installation erstellt und modifiziert HyperPod von SageMaker AI verwaltete Kubernetes-Ressourcen wie KueueManagerConfig, ClusterQueues, LocalQueues, WorkloadPriorityClasses, ResourceFlavors und ValidatingAdmissionPolicies. Obwohl Kubernetes-Administratoren die Möglichkeit haben, den Status dieser Ressourcen zu ändern, ist es möglich, dass alle Änderungen an einer von SageMaker AI verwalteten Ressource vom Service aktualisiert und überschrieben werden.

Die folgenden Informationen beschreiben die Konfigurationseinstellungen, die vom HyperPod-Add-on für die Aufgaben-Governance für die Einrichtung von Kueue verwendet werden.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Weitere Informationen zu den einzelnen Konfigurationseinträgen finden Sie unter Konfiguration in der Kueue-Dokumentation.

Voraussetzungen für die HyperPod-Aufgaben-Governance

Einrichten der HyperPod-Aufgaben-Governance

Im Folgenden finden Sie Informationen zum Einrichten der HyperPod-Aufgaben-Governance

Setup using the SageMaker AI console

Im Folgenden finden Sie Informationen zum Einrichten der HyperPod-Aufgaben-Governance unter Verwendung der SageMaker-HyperPod-Konsole.

Wenn Sie bereits Berechtigungen für die Verwaltung von Amazon CloudWatch-Beobachtbarkeits-EKS und die Anzeige des HyperPod-Cluster-Dashboards über die SageMaker-AI-Konsole in der erteilt haben, verfügen Sie bereits über alle folgenden Berechtigungen. Falls Sie dies noch nicht eingerichtet haben, verwenden Sie die unten stehende Beispielrichtlinie, um Berechtigungen für die Verwaltung des HyperPod-Add-ons für Aufgaben-Governance und die Anzeige des HyperPod-Cluster-Dashboards über die SageMaker-AI-Konsole zu erteilen.

JSON
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Navigieren Sie in der SageMaker-HyperPod-Konsole zur Registerkarte Dashboard, um das Add-on von Amazon SageMaker HyperPod für Aufgaben-Governance zu installieren.

Setup using the Amazon EKS AWS CLI

Verwenden Sie den Beispielbefehl create-addon EKS AWS CLI, um die Amazon-EKS-API für die HyperPod-Aufgaben-Governance und die Konsolen-Benutzeroberfläche unter Verwendung der AWS CLI einzurichten:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Sie können die Registerkarte Richtlinien in der Konsole von HyperPod SageMaker AI aufrufen, wenn die Installation erfolgreich war. Sie können auch den folgenden Beispielbefehl describe-addon EKS AWS CLI verwenden, um den Status zu überprüfen.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance