Configurazione della governance delle attività
Questa sezione include informazioni su come configurare il componente aggiuntivo Amazon SageMaker HyperPod Task Governance EKS. Questo include la concessione di autorizzazioni che consentono di impostare l’assegnazione di priorità alle attività, l’allocazione di risorse di calcolo per i team, le modalità di condivisione delle risorse di calcolo inattive e la prelazione delle attività per i team.
In caso di problemi di configurazione, consulta Risoluzione dei problemi per la risoluzione dei problemi noti.
Argomenti
Impostazioni Kueue
Il componente aggiuntivo HyperPod Task Governance EKS installa Kueue
| Versione del componente aggiuntivo HyperPod Task Governance EKS | Versione di Kueue installata nell’ambito di questo componente aggiuntivo |
|---|---|
|
v1.1.3 |
v0.12.0 |
Nota
Kueue v.012.0 e versioni successive non includono kueue-rbac-proxy come parte dell’installazione. Nelle versioni precedenti potrebbe essere installato kueue-rbac-proxy. Ad esempio, se utilizzi Kueue v0.8.1, potrebbe essere installato kueue-rbac-proxy v0.18.1.
La governance delle attività di HyperPod sfrutta Kueue per le code, la pianificazione e la gestione delle quote per i processi nativi di Kubernetes e viene installata con il componente aggiuntivo HyperPod Task Governance EKS. Una volta installato, HyperPod crea e modifica le risorse Kubernetes gestite da SageMaker AI come KueueManagerConfig, ClusterQueues, LocalQueues, WorkloadPriorityClasses, ResourceFlavors e ValidatingAdmissionPolicies. Sebbene gli amministratori di Kubernetes possano modificare in modo flessibile lo stato di queste risorse, le eventuali modifiche apportate a una risorsa gestita da SageMaker AI potrebbero essere aggiornate e sovrascritte dal servizio.
La sezione seguente descrive le impostazioni utilizzate dal componente aggiuntivo HyperPod Task Governance per configurare Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Per ulteriori informazioni su ogni voce di configurazione, consulta Configurazione
Prerequisiti per la governance delle attività di HyperPod
-
Assicurati di disporre della policy di autorizzazione minima per gli amministratori del cluster HyperPod, descritta in Utenti IAM per l’amministratore del cluster. Questa include le autorizzazioni per eseguire le API principali di SageMaker HyperPod, gestire i cluster SageMaker HyperPod all’interno dell’Account AWS ed eseguire le attività in Gestione dei cluster SageMaker HyperPod orchestrati da Amazon EKS.
-
La versione di Kubernetes dovrà essere >= 1.30. Per istruzioni, consulta Update existing clusters to the new Kubernetes version.
-
Se hai già installato Kueue nei cluster, disinstalla Kueue prima di installare il componente aggiuntivo EKS.
-
Per poter installare il componente aggiuntivo HyperPod Task Governance, il cluster EKS deve già contenere un nodo HyperPod.
Configurazione della governance delle attività di HyperPod
Di seguito vengono fornite informazioni su come configurare la governance delle attività di HyperPod.
Puoi visualizzare la scheda Policy nella console HyperPod SageMaker AI se l’installazione è andata a buon fine. Puoi anche utilizzare il comando della AWS CLI di EKS describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance