Configuración de un clúster de Slurm en Studio - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de un clúster de Slurm en Studio

Las siguientes instrucciones describen cómo configurar un clúster de HyperPod Slurm en Studio.

  1. Cree un dominio a menos que ya disponga de uno. Para obtener más información sobre cómo crear un dominio, consulte Guía para empezar a usar Amazon SageMaker AI.

  2. (Opcional) Crea y adjunta un volumen personalizado FSx para Lustre a tu dominio.

    1. Asegúrese de que su sistema de archivos FSx Lustre esté en la misma VPC que el dominio previsto y esté en una de las subredes presentes en el dominio.

    2. Puede seguir las instrucciones de Adición de un sistema de archivos personalizado a un dominio.

  3. (Opcional) Le recomendamos que añada etiquetas a los clústeres para garantizar un flujo de trabajo más fluido. Para obtener información sobre cómo añadir etiquetas, consulte Edita un SageMaker HyperPod clúster Cómo actualizar el clúster mediante la SageMaker consola AI.

    1. Etiquete su sistema FSx de archivos de Lustre en su dominio de Studio. Esto le ayudará a identificar el sistema de archivos al lanzar sus espacios de Studio. Para ello, añade la siguiente etiqueta a tu clúster para identificarlo con el ID del FSx sistema de archivos,. fs-id

      Clave de la etiqueta = “hyperpod-cluster-filesystem“, valor de la etiqueta = “fs-id

    2. Etiquete el espacio de trabajo Amazon Managed Grafana en su dominio de Studio. Esto se utilizará para vincular rápidamente su espacio de trabajo de Grafana directamente desde el clúster en Studio. Para ello, añada la siguiente etiqueta a su clúster para identificarlo con el ID del espacio de trabajo de Grafana ws-id.

      Clave de la etiqueta = “grafana-workspace“, valor de la etiqueta = “ws-id

  4. Agregue los siguientes permisos a su rol de ejecución.

    Para obtener información sobre las funciones de ejecución de la SageMaker IA y cómo editarlas, consulte. Descripción de los permisos y roles de ejecución de espacio de dominio

    Para obtener más información acerca de cómo asociar políticas a un grupo o usuario de IAM, consulte Adición y eliminación de permisos de identidad de IAM.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ssm:StartSession", "ssm:TerminateSession" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:CreateCluster", "sagemaker:ListClusters" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "cloudwatch:GetMetricData" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:UpdateCluster", "sagemaker:UpdateClusterSoftware" ], "Resource": "arn:aws:sagemaker:us-east-1:111122223333:cluster/*" } ] }
  5. Añada una etiqueta a este rol de IAM, con la clave de la etiqueta = “SSMSessionRunAs“ y el valor de la etiqueta = “os user“. os user es el mismo usuario que configuró para el clúster de Slurm. Gestione el acceso a SageMaker HyperPod los clústeres a nivel de usuario o rol de IAM mediante la función Ejecutar como de AWS Systems ManagerAgent (SSM Agent). Esta característica permite iniciar cada sesión de SSM con el usuario del sistema operativo (SO) asociado al usuario o rol de IAM.

    Para obtener más información sobre cómo añadir etiquetas a su rol de ejecución, consulte Etiquetado de roles de IAM.

  6. Active la compatibilidad con Ejecutar como para los nodos administrados por Linux y macOS. La configuración de Ejecutar como se aplica a toda la cuenta y es necesaria para que todas las sesiones de SSM se inicien correctamente.

  7. (Opcional). Restricción de la vista de tareas en Studio para los clústeres de Slurm Para obtener más información sobre las tareas visibles en Studio, consulte Tareas.

En Amazon SageMaker Studio, puede navegar para ver sus clústeres en HyperPod clústeres (en Compute).

Restricción de la vista de tareas en Studio para los clústeres de Slurm

Puede restringir la visualización de las tareas de Slurm a los usuarios con autorización para ver, sin que sea necesario introducir manualmente los espacios de nombres ni realizar comprobaciones de permisos adicionales. La restricción se aplica en función del rol de IAM de los usuarios, lo que proporciona una experiencia de usuario segura y optimizada. En la siguiente sección, se explica cómo restringir la visualización de tareas en los clústeres de Studio para Slurm. Para obtener más información sobre las tareas visibles en Studio, consulte Tareas.

Todos los usuarios de Studio pueden ver, administrar e interactuar con todas las tareas del clúster de Slurm de forma predeterminada. Para restringirlo, puede administrar el acceso a SageMaker HyperPod los clústeres a nivel de usuario o rol de IAM mediante la función Ejecutar como de AWS Systems ManagerAgent (SSM Agent).

Para ello, debe etiquetar los roles de IAM con identificadores específicos, como su nombre de usuario o grupo. Cuando un usuario accede a Studio, el Administrador de sesiones utiliza la característica Ejecutar como para ejecutar comandos como una cuenta de usuario específica de Slurm que coincide con sus etiquetas de rol de IAM. La configuración de Slurm se puede configurar de manera que se limite la visibilidad de las tareas en función de la cuenta de usuario. La interfaz de usuario de Studio filtrará automáticamente las tareas visibles para esa cuenta de usuario específica cuando los comandos se ejecuten con la característica Ejecutar como. Una vez configuradas, cada usuario que asuma el rol con los identificadores especificados filtrará esas tareas de Slurm en función de la configuración de Slurm. Para obtener más información sobre cómo añadir etiquetas a su rol de ejecución, consulte Etiquetado de roles de IAM.