¿Estás realizando un trabajo de formación en HyperPod Slurm - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Estás realizando un trabajo de formación en HyperPod Slurm

SageMaker HyperPod Recipes permite enviar un trabajo de formación a un clúster de GPU/Trainium Slurm. Antes de enviar el trabajo de entrenamiento, actualice la configuración del clúster. Use uno de los siguientes métodos para actualizar la configuración del clúster:

  • Modificar slurm.yaml.

  • Anularlo mediante la línea de comandos.

Después de actualizar la configuración del clúster, instale el entorno.

Configuración del clúster

Para enviar un trabajo de entrenamiento a un clúster de Slurm, especifique la configuración específica de Slurm. Modifique slurm.yaml para configurar el clúster de Slurm. A continuación, se muestra un ejemplo de configuración de un clúster de Slurm. Puede modificar este archivo según sus propias necesidades de entrenamiento:

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix: especifique un prefijo de nombre de trabajo para identificar fácilmente sus envíos al clúster de Slurm.

  2. slurm_create_submission_file_only: defina esta configuración en True para una ejecución en seco que le ayude a depurar.

  3. stderr_to_stdout: especifique si está redirigiendo el error estándar (stderr) a la salida estándar (stdout).

  4. srun_args: personalice las configuraciones de srun adicionales, como la exclusión de nodos de computación específicos. Para obtener más información, consulte la documentación de srun.

  5. slurm_docker_cfg: El lanzador de SageMaker HyperPod recetas lanza un contenedor Docker para ejecutar tu trabajo de formación. Puede especificar argumentos de Docker adicionales dentro de este parámetro.

  6. container_mounts: especifique los volúmenes que va a montar en el contenedor del lanzador de fórmulas para que sus trabajos de entrenamiento accedan a los archivos de esos volúmenes.