Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de la gobernanza de tareas
En esta sección se incluye información sobre cómo configurar el complemento Amazon SageMaker HyperPod Task Governance EKS. Esto incluye la concesión de permisos que le permiten establecer las prioridades de las tareas, la asignación de computación a los equipos, la forma en que se comparte la computación inactiva y la preferencia de tareas para los equipos.
Si tiene problemas con la configuración, consulte Solución de problemas para ver las soluciones de problemas conocidos.
Temas
Configuración de Kueue
HyperPod El complemento EKS para la gobernanza de tareas instala Kueue
| Versión complementaria de gobierno de HyperPod tareas de EKS | Versión de Kueue que se instala como parte del complemento |
|---|---|
|
v1.1.3 |
v0.12.0 |
nota
La versión v.012.0 y las versiones posteriores de Kueue no se incluyen kueue-rbac-proxy como parte de la instalación. Es posible que se hayan instalado versiones anteriores. kueue-rbac-proxy Por ejemplo, si utilizas Kueue v0.8.1, es posible que tengas la v0.18.1. kueue-rbac-proxy
HyperPod La gobernanza de tareas utiliza Kueue para gestionar las colas de tareas, la programación y las cuotas, de forma nativa de Kubernetes, y se instala con el complemento EKS de gobernanza de tareas. HyperPod Cuando se instala, HyperPod crea y modifica los recursos de Kubernetes gestionados por la SageMaker IA, como,,, y. KueueManagerConfig ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Si bien los administradores de Kubernetes tienen la flexibilidad de modificar el estado de estos recursos, es posible que el servicio actualice y sobrescriba cualquier cambio realizado en un recurso administrado por la SageMaker IA.
La siguiente información describe los ajustes de configuración que utiliza el complemento de gobierno de HyperPod tareas para configurar Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Para obtener más información sobre cada configuración, consulte Configuración
HyperPod Requisitos previos de gobierno de tareas
-
Asegúrese de tener la política de permisos mínimos para los administradores de HyperPod clústeres, enUsuarios de IAM para la administración de clústeres. Esto incluye los permisos para ejecutar el SageMaker HyperPod núcleo APIs, administrar SageMaker HyperPod los clústeres dentro del Cuenta de AWS suyo y realizar las tareas en élAdministración de SageMaker HyperPod clústeres orquestados por Amazon EKS.
-
Necesitará una versión de Kubernetes >= 1.30. Para obtener instrucciones, consulte Actualización del clúster existente a la nueva versión de Kubernetes.
-
Si ya tiene Kueue instalado en sus clústeres, desinstale Kueue antes de instalar el complemento EKS.
-
Debe existir ya un HyperPod nodo en el clúster de EKS antes de instalar el complemento de gobierno de HyperPod tareas.
HyperPod configuración de gobierno de tareas
A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas.
Si la instalación se ha realizado correctamente, puede ver la pestaña Políticas de la consola de HyperPod SageMaker IA. También puede utilizar el siguiente AWS CLI comando describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance