View a markdown version of this page

Realice un seguimiento de la utilización de la capacidad de procesamiento - AWS Batch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Realice un seguimiento de la utilización de la capacidad de procesamiento

AWS Batch proporciona varias operaciones de API que puede usar juntas para realizar un seguimiento de la utilización de la capacidad para los trabajos de cómputo de ECS, EKS y Fargate en una cola. El flujo de trabajo de supervisión depende del tipo de política de programación asociada a la cola de trabajos.

Para las colas de trabajos que utilizan una política de programación de primero en entrar, primero en salir (FIFO):

  1. Compruebe la utilización total de las colas (). GetJobQueueSnapshot

  2. Enumere los trabajos por estado, como RUNNABLE y RUNNING (ListJobs).

  3. Examine cualquier trabajo determinado (DescribeJobs).

Para las colas de trabajos que utilizan una política de programación equitativa (FSS):

  1. Compruebe la utilización total de las colas (). GetJobQueueSnapshot

  2. Ver la utilización por acción ()GetJobQueueSnapshot.

  3. Enumere los trabajos por estado y recurso compartido que contribuyen activamente a la utilización, como RUNNABLE y RUNNING (ListJobs).

  4. Examine cualquier trabajo determinado (DescribeJobs).

En las siguientes secciones se explica cada paso en detalle.

Para obtener información sobre el seguimiento de la utilización de la capacidad para los trabajos de servicio, consulteRealice un seguimiento de la utilización de la capacidad de trabajo.

Compruebe la utilización de las colas

El queueUtilization campo de la GetJobQueueSnapshotrespuesta proporciona una point-in-time vista de la cantidad de capacidad informática que consumen los trabajos enviados desde una cola. La capacidad se mide en v CPUs para los trabajos de computación.

En el caso de las colas de trabajos que utilizan una política de programación equitativa, la respuesta también incluye un desglose por acción para que pueda ver cómo se distribuye la capacidad entre las acciones. Para obtener más información, consulte Vea el uso por acción.

Ver la utilización de la capacidad ()AWS CLI

Utilice el get-job-queue-snapshotcomando para recuperar una instantánea de la utilización de la capacidad de una cola de trabajos.

aws batch get-job-queue-snapshot \ --job-queue my-job-queue

La respuesta varía en función de la política de programación adjunta a la cola de trabajos. Elija la pestaña correspondiente al tipo de política de programación para ver un ejemplo de respuesta.

First-in, first-out (FIFO)

El siguiente es un ejemplo de respuesta para una cola de trabajos FIFO que ejecuta trabajos de cómputo. Como una cola FIFO no utiliza una política de programación, la respuesta no incluye el uso por recurso compartido.

{ "frontOfQueue": { "jobs": [], "lastUpdatedAt": 1700000000000 }, "queueUtilization": { "totalCapacityUsage": [ { "capacityUnit": "vCPU", "quantity": 96.0 } ], "lastUpdatedAt": 1700000000000 } }

En este ejemplo, la cola consume un total de 96 v en CPUs todos los trabajos despachados.

Fair-share scheduling (FSS)

El siguiente es un ejemplo de respuesta para una cola de trabajos repartida equitativamente. El queueUtilization objeto contiene una point-in-time instantánea de la capacidad total consumida por todos los trabajos despachados desde la cola, junto con un desglose por acción.

{ "frontOfQueue": { "jobs": [], "lastUpdatedAt": 1700000000000 }, "queueUtilization": { "totalCapacityUsage": [ { "capacityUnit": "vCPU", "quantity": 192.0 } ], "fairshareUtilization": { "activeShareCount": 2, "topCapacityUtilization": [ { "shareIdentifier": "team-a", "capacityUsage": [ { "capacityUnit": "vCPU", "quantity": 128.0 } ] }, { "shareIdentifier": "team-b", "capacityUsage": [ { "capacityUnit": "vCPU", "quantity": 64.0 } ] } ] }, "lastUpdatedAt": 1700000000000 } }

En este ejemplo, el totalCapacityUsage campo muestra que la cola consume un total de 192 v. CPUs El fairshareUtilization objeto muestra el desglose por acción. El recurso compartido team-a consume 128 v CPUs y el recurso compartido team-b consume 64 vCPUs.

Vea el uso por acción

En el caso de las colas de trabajos con una política de programación equitativa, la queueUtilization respuesta de GetJobQueueSnapshot incluye un fairshareUtilization objeto con una topCapacityUtilization matriz en la que se muestran las principales acciones activas por consumo.

Esta información le ayuda a:

  • Identifique qué acciones consumen más recursos.

  • Compruebe que la programación de reparto equitativo distribuya los recursos según lo previsto.

  • Detecte las acciones que puedan estar saturando o infrautilizando su asignación.

  • Determine si debe ajustar las ponderaciones de las acciones en su política de programación.

Para obtener más información sobre las políticas de programación de reparto equitativo, consulte. Políticas de programación de reparto justo

Enumere los trabajos de cómputo por estado y compártalos

Tras identificar la utilización general de la cola y por recurso compartido, utilice la operación de la ListJobsAPI para encontrar los trabajos de cálculo que contribuyen activamente a la utilización. Puede filtrar por estado de los trabajos para ver los trabajos que están RUNNING en otro estado o que se encuentran en otro estado. RUNNABLE En el caso de las colas con una política de programación de reparto equitativo, también puedes filtrar por identificador de reparto para limitar los resultados a un reparto específico.

nota

El SHARE_IDENTIFIER filtro es el único filtro que se puede combinar con el parámetro. jobStatus Cuando se utilizan otros filtros, se ignora el jobStatus parámetro.

Enumere los trabajos de cómputo (AWS CLI)

Utilice el comando list-jobs con el --job-status parámetro para filtrar por estado.

Vea los trabajos de cómputo en ejecución en su cola:

aws batch list-jobs \ --job-queue my-job-queue \ --job-status RUNNING

Vea los trabajos de computación en espera de ser enviados:

aws batch list-jobs \ --job-queue my-job-queue \ --job-status RUNNABLE

En el caso de las colas con una política de programación de reparto equitativo, utilice el --filters parámetro with SHARE_IDENTIFIER para mostrar los trabajos de un reparto específico. Esto resulta útil cuando se identifica un recurso compartido con un alto consumo de capacidad y se desea ver qué trabajos son responsables.

Enumere solo los trabajos de RUNNING cómputo de una acción de una lista de reparto equitativo:

aws batch list-jobs \ --job-queue my-job-queue \ --job-status RUNNING \ --filters name=SHARE_IDENTIFIER,values="team-a"

El siguiente es un ejemplo de respuesta para enumerar los trabajos de cómputo en ejecución.

{ "jobSummaryList": [ { "jobArn": "arn:aws:batch:us-east-1:123456789012:job/b5e7d839-9ff9-5d76-9f3b-0b6f9g5c8e4f", "jobId": "b5e7d839-9ff9-5d76-9f3b-0b6f9g5c8e4f", "jobName": "my-data-processing-job", "status": "RUNNING", "shareIdentifier": "team-a", "createdAt": 1700000000000, "startedAt": 1700000120000, "capacityUsage": [ { "capacityUnit": "vCPU", "quantity": 4.0 } ], "container": { "exitCode": null }, "jobDefinition": "arn:aws:batch:us-east-1:123456789012:job-definition/my-job-def:1" } ] }

Examine un trabajo de cómputo específico

Tras identificar un trabajo informático de interés, utilice la DescribeJobsoperación para obtener información completa sobre el trabajo, incluido su estado actual, los detalles del contenedor y la configuración de los recursos.

Vea información detallada sobre un trabajo de cómputo específico:

aws batch describe-jobs \ --jobs b5e7d839-9ff9-5d76-9f3b-0b6f9g5c8e4f

Este comando devuelve información completa sobre el trabajo, como:

  • el ARN del trabajo y estado actual,

  • Requisitos de recursos y configuración del contenedor (v CPUs y memoria)

  • Definición de trabajos y detalles del entorno de cómputo

  • la configuración de la prioridad de programación y reintentos,

  • la información detallada sobre los intentos con las horas de inicio y finalización,

  • Registre la información del flujo para acceder a los registros de los contenedores