Convalida del runtime prima di eseguire carichi di lavoro di produzione in un cluster HyperPod Slurm - Amazon SageMaker AI

Convalida del runtime prima di eseguire carichi di lavoro di produzione in un cluster HyperPod Slurm

Per controllare il runtime prima di eseguire qualsiasi carico di lavoro di produzione su un cluster Slurm su HyperPod, utilizza lo script di convalida del runtime hyperpod-precheck.py. Questo script verifica se il cluster Slurm ha tutti i pacchetti installati per l’esecuzione di Docker, se il cluster ha un file system FSx per Lustre montato correttamente e una directory utente che condivide il file system e se il daemon Slurm è in esecuzione su tutti i nodi di calcolo.

Per eseguire lo script su più nodi contemporaneamente, utilizza srun come mostrato nel comando di esempio seguente per eseguire lo script su un cluster Slurm di 8 nodi.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
Nota

Per ulteriori informazioni sullo script di convalida, ad esempio sulle funzioni di convalida del runtime fornite dallo script e sulle linee guida per risolvere i problemi che non superano la convalida, consulta Runtime validation before running workloads nel repository GitHub Awsome Distributed Training.