Configurazione della governance delle attività - Amazon SageMaker AI

Configurazione della governance delle attività

Questa sezione include informazioni su come configurare il componente aggiuntivo Amazon SageMaker HyperPod Task Governance EKS. Questo include la concessione di autorizzazioni che consentono di impostare l’assegnazione di priorità alle attività, l’allocazione di risorse di calcolo per i team, le modalità di condivisione delle risorse di calcolo inattive e la prelazione delle attività per i team.

In caso di problemi di configurazione, consulta Risoluzione dei problemi per la risoluzione dei problemi noti.

Impostazioni Kueue

Il componente aggiuntivo HyperPod Task Governance EKS installa Kueue per i cluster EKS di HyperPod. Kueue è un sistema nativo di Kubernetes che gestisce le quote e il loro consumo da parte dei processi.

Versione del componente aggiuntivo HyperPod Task Governance EKS Versione di Kueue installata nell’ambito di questo componente aggiuntivo

v1.1.3

v0.12.0

Nota

Kueue v.012.0 e versioni successive non includono kueue-rbac-proxy come parte dell’installazione. Nelle versioni precedenti potrebbe essere installato kueue-rbac-proxy. Ad esempio, se utilizzi Kueue v0.8.1, potrebbe essere installato kueue-rbac-proxy v0.18.1.

La governance delle attività di HyperPod sfrutta Kueue per le code, la pianificazione e la gestione delle quote per i processi nativi di Kubernetes e viene installata con il componente aggiuntivo HyperPod Task Governance EKS. Una volta installato, HyperPod crea e modifica le risorse Kubernetes gestite da SageMaker AI come KueueManagerConfig, ClusterQueues, LocalQueues, WorkloadPriorityClasses, ResourceFlavors e ValidatingAdmissionPolicies. Sebbene gli amministratori di Kubernetes possano modificare in modo flessibile lo stato di queste risorse, le eventuali modifiche apportate a una risorsa gestita da SageMaker AI potrebbero essere aggiornate e sovrascritte dal servizio.

La sezione seguente descrive le impostazioni utilizzate dal componente aggiuntivo HyperPod Task Governance per configurare Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Per ulteriori informazioni su ogni voce di configurazione, consulta Configurazione nella documentazione di Kueue.

Prerequisiti per la governance delle attività di HyperPod

Configurazione della governance delle attività di HyperPod

Di seguito vengono fornite informazioni su come configurare la governance delle attività di HyperPod.

Setup using the SageMaker AI console

Di seguito vengono fornite informazioni su come configurare la governance delle attività di HyperPod con la console SageMaker HyperPod.

Se hai già concesso le autorizzazioni per gestire Amazon CloudWatch Observability EKS e visualizzare il dashboard del cluster HyperPod tramite la console SageMaker AI in Configurazione del componente aggiuntivo HyperPod Amazon CloudWatch Observability EKS, le autorizzazioni seguenti sono già tutte collegate. Se non sono già configurate, utilizza la policy di esempio riportata di seguito per concedere le autorizzazioni per gestire il componente aggiuntivo HyperPod Task Governance e visualizzare la dashboard del cluster HyperPod tramite la console SageMaker AI.

JSON
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Vai alla scheda Dashboard nella console SageMaker HyperPod per installare il componente aggiuntivo Amazon SageMaker HyperPod Task Governance.

Setup using the Amazon EKS AWS CLI

Utilizza il comando della AWS CLI di EKS create-addon di esempio per configurare l’API Amazon EKS di HyperPod per la governance delle attività e l’interfaccia utente della console con la AWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Puoi visualizzare la scheda Policy nella console HyperPod SageMaker AI se l’installazione è andata a buon fine. Puoi anche utilizzare il comando della AWS CLI di EKS describe-addon di esempio per verificare lo stato.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance