Configuración de la gobernanza de tareas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de la gobernanza de tareas

En esta sección se incluye información sobre cómo configurar el complemento Amazon SageMaker HyperPod Task Governance EKS. Esto incluye la concesión de permisos que le permiten establecer las prioridades de las tareas, la asignación de computación a los equipos, la forma en que se comparte la computación inactiva y la preferencia de tareas para los equipos.

Si tiene problemas con la configuración, consulte Solución de problemas para ver las soluciones de problemas conocidos.

Configuración de Kueue

HyperPod El complemento EKS para la gobernanza de tareas instala Kueue para tus HyperPod clústeres de EKS. Kueue es un sistema nativo de Kubernetes que administra las cuotas y la forma en que las consumen los trabajos.

Versión complementaria de gobierno de HyperPod tareas de EKS Versión de Kueue que se instala como parte del complemento

v1.1.3

v0.12.0

nota

La versión v.012.0 y las versiones posteriores de Kueue no se incluyen kueue-rbac-proxy como parte de la instalación. Es posible que se hayan instalado versiones anteriores. kueue-rbac-proxy Por ejemplo, si utilizas Kueue v0.8.1, es posible que tengas la v0.18.1. kueue-rbac-proxy

HyperPod La gobernanza de tareas utiliza Kueue para gestionar las colas de tareas, la programación y las cuotas, de forma nativa de Kubernetes, y se instala con el complemento EKS de gobernanza de tareas. HyperPod Cuando se instala, HyperPod crea y modifica los recursos de Kubernetes gestionados por la SageMaker IA, como,,, y. KueueManagerConfig ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Si bien los administradores de Kubernetes tienen la flexibilidad de modificar el estado de estos recursos, es posible que el servicio actualice y sobrescriba cualquier cambio realizado en un recurso administrado por la SageMaker IA.

La siguiente información describe los ajustes de configuración que utiliza el complemento de gobierno de HyperPod tareas para configurar Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Para obtener más información sobre cada configuración, consulte Configuración en la documentación de Kueue.

HyperPod Requisitos previos de gobierno de tareas

HyperPod configuración de gobierno de tareas

A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas.

Setup using the SageMaker AI console

A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas mediante la SageMaker HyperPod consola.

Si ya ha concedido permisos para gestionar Amazon CloudWatch Observability EKS y ver el panel de control del HyperPod clúster a través de la consola de SageMaker IA delHyperPod Configuración del complemento Amazon CloudWatch Observability EKS. Si no lo ha configurado, utilice el ejemplo de política que se muestra a continuación para conceder permisos que le permitan gestionar el complemento de gobierno de HyperPod tareas y ver el panel del HyperPod clúster a través de la consola de SageMaker IA.

JSON
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Ve a la pestaña Panel de control de la SageMaker HyperPod consola para instalar el complemento Amazon SageMaker HyperPod Task Governance.

Setup using the Amazon EKSAWS CLI

Utilice el AWS CLI comando create-addonEKS de ejemplo para configurar la API Amazon EKS de gobierno de HyperPod tareas y la interfaz de usuario de la consola medianteAWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Si la instalación se ha realizado correctamente, puede ver la pestaña Políticas de la consola de HyperPod SageMaker IA. También puede utilizar el siguiente AWS CLI comando describe-addonEKS de ejemplo para comprobar el estado.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance