Esecuzione di un lavoro di formazione su HyperPod Slurm - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di un lavoro di formazione su HyperPod Slurm

SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un GPU/Trainium cluster slurm. Prima di inviare il job di addestramento, aggiorna la configurazione del cluster. Utilizza uno dei metodi seguenti per aggiornare la configurazione del cluster:

  • Modificare le slurm.yaml

  • Sovrascrivila tramite la riga di comando

Dopo aver aggiornato la configurazione del cluster, installa l’ambiente.

Configurazione del cluster

Per inviare un job di addestramento a un cluster Slurm, imposta la configurazione specifica per Slurm. Modifica slurm.yaml per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. Puoi modificare questo file in base alle tue esigenze di addestramento:

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix: specifica un prefisso per il nome del processo per identificare facilmente i tue invii al cluster Slurm.

  2. slurm_create_submission_file_only: imposta questa configurazione su True per un’esecuzione di prova che faciliti il debug.

  3. stderr_to_stdout: specifica se stai reindirizzando l’errore standard (stderr) all’output standard (stdout).

  4. srun_args: personalizza le configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione relativa a srun.

  5. slurm_docker_cfg: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. Puoi specificare argomenti Docker aggiuntivi all’interno di questo parametro.

  6. container_mounts: specifica i volumi che stai montando nel container nell’utilità di avvio delle ricette per consentire ai job di addestramento di accedere ai file in quei volumi.