Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di un lavoro di formazione su HyperPod Slurm
SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un GPU/Trainium cluster slurm. Prima di inviare il job di addestramento, aggiorna la configurazione del cluster. Utilizza uno dei metodi seguenti per aggiornare la configurazione del cluster:
-
Modificare le
slurm.yaml -
Sovrascrivila tramite la riga di comando
Dopo aver aggiornato la configurazione del cluster, installa l’ambiente.
Configurazione del cluster
Per inviare un job di addestramento a un cluster Slurm, imposta la configurazione specifica per Slurm. Modifica slurm.yaml per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. Puoi modificare questo file in base alle tue esigenze di addestramento:
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix: specifica un prefisso per il nome del processo per identificare facilmente i tue invii al cluster Slurm. -
slurm_create_submission_file_only: imposta questa configurazione su True per un’esecuzione di prova che faciliti il debug. -
stderr_to_stdout: specifica se stai reindirizzando l’errore standard (stderr) all’output standard (stdout). -
srun_args: personalizza le configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione relativa a srun. -
slurm_docker_cfg: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. Puoi specificare argomenti Docker aggiuntivi all’interno di questo parametro. -
container_mounts: specifica i volumi che stai montando nel container nell’utilità di avvio delle ricette per consentire ai job di addestramento di accedere ai file in quei volumi.