View a markdown version of this page

Configurazione della governance delle attività - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione della governance delle attività

Questa sezione include informazioni su come configurare il componente aggiuntivo Amazon SageMaker HyperPod task governance EKS. Questo include la concessione di autorizzazioni che consentono di impostare l’assegnazione di priorità alle attività, l’allocazione di risorse di calcolo per i team, le modalità di condivisione delle risorse di calcolo inattive e la prelazione delle attività per i team.

In caso di problemi di configurazione, consulta Risoluzione dei problemi per la risoluzione dei problemi noti.

Impostazioni Kueue

HyperPod Il componente aggiuntivo Task Governance EKS installa Kueue per i tuoi cluster EKS. HyperPod Kueue è un sistema nativo di Kubernetes che gestisce le quote e il loro consumo da parte dei processi.

Versione aggiuntiva EKS Task Governance HyperPod Versione di Kueue installata nell’ambito di questo componente aggiuntivo

v1.1.3

v0.12.0

Nota

Kueue v.012.0 e versioni successive non includono kueue-rbac-proxy come parte dell’installazione. Nelle versioni precedenti potrebbe essere installato kueue-rbac-proxy. Ad esempio, se utilizzi Kueue v0.8.1, potrebbe essere installato kueue-rbac-proxy v0.18.1.

HyperPod la governance delle attività sfrutta Kueue per la gestione delle code di Kubernetes-native lavoro, la pianificazione e le quote e viene installata con il componente aggiuntivo EKS per la governance delle attività. HyperPod Una volta installato, HyperPod crea e modifica risorse SageMaker AI-managed Kubernetes come,,, e. KueueManagerConfig ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Sebbene gli amministratori di Kubernetes abbiano la flessibilità di modificare lo stato di queste risorse, è possibile che qualsiasi modifica apportata a una SageMaker AI-managed risorsa venga aggiornata e sovrascritta dal servizio.

Le seguenti informazioni descrivono le impostazioni di configurazione utilizzate dal componente aggiuntivo HyperPod Task Governance per configurare Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Per ulteriori informazioni su ogni voce di configurazione, consulta Configurazione nella documentazione di Kueue.

HyperPod Prerequisiti per la governance delle attività

HyperPod configurazione della governance delle attività

Di seguito vengono fornite informazioni su come impostare la governance delle HyperPod attività.

Setup using the SageMaker AI console

Di seguito vengono fornite informazioni su come configurare la governance delle HyperPod attività utilizzando la SageMaker HyperPod console.

Hai già tutte le seguenti autorizzazioni allegate se hai già concesso le autorizzazioni per gestire Amazon CloudWatch Observability EKS e visualizzare il dashboard del HyperPod cluster tramite la console SageMaker AI in. HyperPod Configurazione del componente aggiuntivo Amazon CloudWatch Observability EKS Se non l'hai configurata, utilizza la politica di esempio riportata di seguito per concedere le autorizzazioni per gestire il componente aggiuntivo HyperPod Task Governance e visualizzare la dashboard del HyperPod cluster tramite la console AI. SageMaker

JSON
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Vai alla scheda Dashboard nella SageMaker HyperPod console per installare Amazon SageMaker HyperPod Task Governance Add-on.

Setup using the Amazon EKS AWS CLI

Utilizza il AWS CLI comando create-addonEKS di esempio per configurare l'API Amazon EKS di HyperPod task governance e l'interfaccia utente della console utilizzando AWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Puoi visualizzare la scheda Policies nella console HyperPod SageMaker AI se l'installazione è andata a buon fine. È inoltre possibile utilizzare il seguente AWS CLI comando describe-addonEKS di esempio per verificare lo stato.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance