Creación de una cola de trabajos de entrenamiento de SageMaker en AWS Batch - AWS Batch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de una cola de trabajos de entrenamiento de SageMaker en AWS Batch

Las colas de trabajo de entrenamiento de SageMaker se integran directamente con el servicio SageMaker AI para ofrecer una programación de trabajos sin servidor sin necesidad de administrar la infraestructura de computación subyacente.

Requisitos previos

Antes de crear una cola de trabajos de entrenamiento de SageMaker, asegúrese de tener:

Create a SageMaker Training job queue (AWS Batch console)
  1. Abra la consola AWS Batch en https://console.aws.amazon.com/batch/.

  2. En el panel de navegación, seleccione Colas de trabajo y Crear.

  3. En Tipo de orquestación, elija Entrenamiento de SageMaker.

  4. En Configuración de la cola de trabajos:

    1. En Nombre, ingrese el nombre de la cola de trabajos.

    2. En Prioridad, ingrese un valor entre 0 y 1000. Se da preferencia a una cola de trabajos con mayor prioridad para los entornos de servicio.

    3. (Opcional) En Política de programación Nombre de recurso de Amazon (ARN), elija una política de programación existente.

    4. En Entornos de servicios conectados, seleccione un entorno de servicio de la lista para asociarlo a la cola de trabajos.

  5. (Opcional) En Límites del estado de trabajo:

    1. En Configuración incorrecta, elija SERVICE_ENVIRONMENT_MAX_RESOURCE e ingrese el Tiempo máximo de ejecución (segundos).

    2. En Capacidad, elija INSUFFICIENT_INSTANCE_CAPACITY e ingrese el Tiempo máximo de ejecución (segundos).

  6. Elija Crear cola de trabajos.

Create a SageMaker Training job queue (AWS CLI)

Utilice el comando create-job-queue para crear una cola de trabajo de entrenamiento de SageMaker.

El siguiente ejemplo crea una cola de trabajo de entrenamiento básica de SageMaker que utiliza un entorno de servicios:

aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=ExampleServiceEnvironment

Sustituya ExampleServiceEnvironment por el nombre de su entorno de servicio.

El comando devuelve un resultado similar al siguiente:

{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq" }

Tras crear la cola de trabajos, compruebe que se ha creado correctamente y que su estado es válido.

Utilice el comando describe-job-queues para ver los detalles de la cola de trabajos:

aws batch describe-job-queues --job-queues my-sm-training-fifo-jq

El comando devuelve un resultado similar al siguiente:

{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region:account:service-environment/ExampleServiceEnvironment" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }

Asegúrese de que:

  • El valor de state es ENABLED

  • El valor de status es VALID

  • El valor de statusReason es JobQueue Healthy

  • El valor de jobQueueType es SAGEMAKER_TRAINING

  • serviceEnvironmentOrder hace referencia al entorno de servicio