HyperPod pestañas en Studio - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

HyperPod pestañas en Studio

En Amazon SageMaker Studio, puede navegar hasta uno de sus clústeres en HyperPodclústeres (en Compute) y ver la lista de clústeres. Los clústeres que se muestran contienen información como tareas, métricas de hardware, configuración y detalles de los metadatos. Esta visibilidad puede ayudar a su equipo a identificar al candidato adecuado para sus cargas de trabajo previamente entrenadas o de refinamiento. En las siguientes secciones se presenta información acerca de cada tipo de información.

Tareas

Amazon SageMaker HyperPod proporciona una vista de las tareas del clúster. Las tareas son operaciones o trabajos que se envían al clúster. Pueden ser operaciones de machine learning, como el entrenamiento, la ejecución de experimentos o la inferencia. En la siguiente sección, se proporciona información sobre las tareas HyperPod del clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver la información de tareas de su clúster. Si tiene problemas con la visualización de las tareas, consulte Resolución de problemas.

La tabla de tareas incluye:

For Slurm clusters

En el caso de los clústeres de Slurm, en la tabla se muestran las tareas que se encuentran actualmente en la cola del programador de trabajos de Slurm. La información que se muestra para cada tarea incluye el nombre de la tarea, el estado, el ID del trabajo, la partición, el tiempo de ejecución, los nodos, los elementos creados por y las acciones.

Para obtener una lista y detalles sobre los trabajos anteriores, usa el sacctcomando in JupyterLab o un terminal de editor de código. El comando sacct se usa para ver información histórica sobre los trabajos que han finalizado o están completos en el sistema. Proporciona información contable, incluido el uso de los recursos del trabajo, como la memoria y el estado de salida.

Todos los usuarios de Studio pueden ver, administrar e interactuar con todas las tareas disponibles de Slurm de forma predeterminada. Para restringir las tareas visibles a los usuarios de Studio, consulte Restricción de la vista de tareas en Studio para los clústeres de Slurm.

For Amazon EKS clusters

Para los clústeres de Amazon EKS, las tareas de kubeflow (PyTorch, MPI, TensorFlow) se muestran en la tabla. PyTorch las tareas se muestran de forma predeterminada. Puede ordenar por PyTorch MPI y por Tipo TensorFlow de tarea. De cada tarea se muestra el nombre, el estado, el espacio de nombres, la clase de prioridad y la hora de creación.

De manera predeterminada, todos los usuarios pueden ver los trabajos en todos los espacios de nombres. Para restringir los espacios de nombres de Kubernetes visibles disponibles para los usuarios de Studio, consulte Restricción de la vista de tareas en Studio para los clústeres de EKS. Si un usuario no puede ver las tareas y se le pide que proporcione un espacio de nombres, debe obtener esa información del administrador.

Métricas

Amazon SageMaker HyperPod proporciona una vista de las métricas de uso de sus clústeres de Slurm o Amazon EKS. A continuación, se proporciona información sobre las métricas de su HyperPod clúster.

Deberá instalar el complemento de Amazon EKS para ver las siguientes métricas. Para obtener más información, consulte Instalación del complemento Amazon CloudWatch Observability EKS.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver los detalles de las métricas de su clúster. Las métricas ofrecen una vista integral de las métricas de uso del clúster, incluidas las métricas de hardware, equipo y tareas. Esto incluye la disponibilidad y el uso de la computación, la asignación y utilización de los equipos y la información sobre el tiempo de ejecución y espera de las tareas.

Configuración

Amazon SageMaker HyperPod proporciona una vista de la configuración del clúster. A continuación, se proporciona información sobre la configuración del HyperPod clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver la información de configuración de su clúster. La información incluye lo siguiente:

  • Detalles de las instancias, como el ID de la instancia, el estado, el tipo de instancia y el grupo de instancias.

  • Detalles de los grupos de instancias, como el nombre, el tipo, los recuentos y la información de computación del grupo de instancias.

  • Detalles de la orquestación, como el orquestador, la versión y la autoridad de certificación.

  • Detalles de la resiliencia del clúster.

  • Detalles de seguridad, como las subredes y los grupos de seguridad.

Details

Amazon SageMaker HyperPod proporciona una vista de los detalles de los metadatos del clúster. El siguiente párrafo proporciona información sobre cómo obtener los detalles HyperPod del clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver los detalles de su clúster. Esto incluye las etiquetas, los registros y los metadatos.