Einrichtung der Aufgaben-Governance
Dieser Abschnitt enthält Informationen zur Einrichtung des EKS-Add-ons für die Aufgaben-Governance von Amazon SageMaker HyperPod. Dies umfasst die Erteilung von Berechtigungen, mit denen Sie die Priorisierung von Aufgaben, die Zuweisung von Rechenkapazitäten für Teams, die Verteilung ungenutzter Rechenkapazitäten und die Vorrangigkeit von Aufgaben für Teams festlegen können.
Falls Sie Schwierigkeiten bei der Einrichtung haben, finden Sie unter Fehlerbehebung bekannte Lösungen zur Fehlerbehebung.
Themen
Kueue-Einstellungen
Das EKS-Add-ons für die Aufgaben-Governance von HyperPod installiert Kueue
| Add-on-Version für Aufgaben-Governance von EKS HyperPod | Version von Kueue, die als Teil des Add-ons installiert wird |
|---|---|
|
v1.1.3 |
v0.12.0 |
Anmerkung
Kueue v.012.0 und höher enthalten kueue-rbac-proxy nicht als Teil der Installation. In früheren Versionen war möglicherweise kueue-rbac-proxy installiert. Wenn Sie beispielsweise Kueue v0.8.1 verwenden, haben Sie möglicherweise kueue-rbac-proxy v0.18.1.
Die HyperPod-Aufgaben-Governance nutzt Kueue für Kubernetes-native Auftragswarteschlangen, Zeitplanung und Kontingentverwaltung und wird mit dem EKS-Add-on für Aufgaben-Governance von HyperPod installiert. Nach der Installation erstellt und modifiziert HyperPod von SageMaker AI verwaltete Kubernetes-Ressourcen wie KueueManagerConfig, ClusterQueues, LocalQueues, WorkloadPriorityClasses, ResourceFlavors und ValidatingAdmissionPolicies. Obwohl Kubernetes-Administratoren die Möglichkeit haben, den Status dieser Ressourcen zu ändern, ist es möglich, dass alle Änderungen an einer von SageMaker AI verwalteten Ressource vom Service aktualisiert und überschrieben werden.
Die folgenden Informationen beschreiben die Konfigurationseinstellungen, die vom HyperPod-Add-on für die Aufgaben-Governance für die Einrichtung von Kueue verwendet werden.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Weitere Informationen zu den einzelnen Konfigurationseinträgen finden Sie unter Konfiguration
Voraussetzungen für die HyperPod-Aufgaben-Governance
-
Stellen Sie sicher, dass Sie über die Mindestberechtigungsrichtlinie für HyperPod-Cluster-Administratoren verfügen, in IAM-Benutzer für den Clusteradministrator. Dies umfasst Berechtigungen zum Ausführen der Kern-APIs von SageMaker HyperPod und zum Verwalten von SageMaker-HyperPod-Clustern innerhalb Ihres AWS-Konto, wobei die Aufgaben in Verwalten von SageMaker-HyperPod-Clustern, orchestriert von Amazon EKS ausgeführt werden.
-
Sie benötigen die Kubernetes-Version >= 1.30. Anweisungen finden Sie unter Aktualisieren vorhandener Cluster auf die neue Kubernetes-Version.
-
Wenn Sie Kueue bereits in ihren Clustern installiert haben, deinstallieren Sie Kueue, bevor Sie das EKS-Add-on installieren.
-
Ein HyperPod-Knoten muss bereits im EKS-Cluster vorhanden sein, bevor das HyperPod-Add-on für Aufgaben-Governance installiert werden kann.
Einrichten der HyperPod-Aufgaben-Governance
Im Folgenden finden Sie Informationen zum Einrichten der HyperPod-Aufgaben-Governance
Sie können die Registerkarte Richtlinien in der Konsole von HyperPod SageMaker AI aufrufen, wenn die Installation erfolgreich war. Sie können auch den folgenden Beispielbefehl describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance