Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
¿Estás realizando un trabajo de formación en HyperPod Slurm
SageMaker HyperPod Recipes permite enviar un trabajo de formación a un clúster de GPU/Trainium Slurm. Antes de enviar el trabajo de entrenamiento, actualice la configuración del clúster. Use uno de los siguientes métodos para actualizar la configuración del clúster:
-
Modificar
slurm.yaml. -
Anularlo mediante la línea de comandos.
Después de actualizar la configuración del clúster, instale el entorno.
Configuración del clúster
Para enviar un trabajo de entrenamiento a un clúster de Slurm, especifique la configuración específica de Slurm. Modifique slurm.yaml para configurar el clúster de Slurm. A continuación, se muestra un ejemplo de configuración de un clúster de Slurm. Puede modificar este archivo según sus propias necesidades de entrenamiento:
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix: especifique un prefijo de nombre de trabajo para identificar fácilmente sus envíos al clúster de Slurm. -
slurm_create_submission_file_only: defina esta configuración en True para una ejecución en seco que le ayude a depurar. -
stderr_to_stdout: especifique si está redirigiendo el error estándar (stderr) a la salida estándar (stdout). -
srun_args: personalice las configuraciones de srun adicionales, como la exclusión de nodos de computación específicos. Para obtener más información, consulte la documentación de srun. -
slurm_docker_cfg: El lanzador de SageMaker HyperPod recetas lanza un contenedor Docker para ejecutar tu trabajo de formación. Puede especificar argumentos de Docker adicionales dentro de este parámetro. -
container_mounts: especifique los volúmenes que va a montar en el contenedor del lanzador de fórmulas para que sus trabajos de entrenamiento accedan a los archivos de esos volúmenes.