View a markdown version of this page

Configuración de la gobernanza de tareas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de la gobernanza de tareas

En esta sección se incluye información sobre cómo configurar el complemento Amazon SageMaker HyperPod Task Governance EKS. Esto incluye la concesión de permisos que le permiten establecer las prioridades de las tareas, la asignación de computación a los equipos, la forma en que se comparte la computación inactiva y la preferencia de tareas para los equipos.

Si tiene problemas con la configuración, consulte Solución de problemas para ver las soluciones de problemas conocidos.

Configuración de Kueue

HyperPod El complemento EKS para la gobernanza de tareas instala Kueue para tus HyperPod clústeres de EKS. Kueue es un sistema nativo de Kubernetes que administra las cuotas y la forma en que las consumen los trabajos.

Versión complementaria de gobierno de HyperPod tareas de EKS Versión de Kueue que se instala como parte del complemento

v1.1.3

v0.12.0

nota

Kueue v.012.0 y las versiones posteriores no incluyen kueue-rbac-proxy en la instalación. Es posible que las versiones anteriores tengan instalado kueue-rbac-proxy. Por ejemplo, si utiliza Kueue v0.8.1, es posible que tenga kueue-rbac-proxy v0.18.1.

HyperPod La gobernanza de tareas utiliza Kueue para la creación de colas de Kubernetes-native tareas, la programación y la gestión de cuotas, y se instala con el complemento EKS para la HyperPod gobernanza de tareas. Cuando se instala, HyperPod crea y modifica los recursos de SageMaker AI-managed Kubernetes, como,,, y. KueueManagerConfig ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Si bien los administradores de Kubernetes tienen la flexibilidad de modificar el estado de estos recursos, es posible que el servicio actualice y sobrescriba cualquier cambio realizado en un SageMaker AI-managed recurso.

La siguiente información describe los ajustes de configuración que utiliza el complemento de gobierno de HyperPod tareas para configurar Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Para obtener más información sobre cada configuración, consulte Configuración en la documentación de Kueue.

HyperPod Requisitos previos de gobierno de tareas

HyperPod configuración de gobierno de tareas

A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas.

Setup using the SageMaker AI console

A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas mediante la SageMaker HyperPod consola.

Si ya ha concedido permisos para gestionar Amazon CloudWatch Observability EKS y ver el panel del HyperPod clúster a través de la consola de SageMaker IA delHyperPod Configuración del complemento Amazon CloudWatch Observability EKS. Si no lo ha configurado, utilice el ejemplo de política que se muestra a continuación para conceder permisos que le permitan gestionar el complemento de gobierno de HyperPod tareas y ver el panel del HyperPod clúster a través de la consola de SageMaker IA.

JSON
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Dirígete a la pestaña Panel de control de la SageMaker HyperPod consola para instalar la gobernanza de SageMaker HyperPod tareas de Amazon Add-on.

Setup using the Amazon EKS AWS CLI

Utilice el AWS CLI comando create-addonEKS de ejemplo para configurar la API Amazon EKS de gobierno de HyperPod tareas y la interfaz de usuario de la consola mediante AWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Si la instalación se ha realizado correctamente, puede ver la pestaña Políticas de la consola de HyperPod SageMaker IA. También puede utilizar el siguiente AWS CLI comando describe-addonEKS de ejemplo para comprobar el estado.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance