Convalida del runtime prima di eseguire carichi di lavoro di produzione in un cluster HyperPod Slurm
Per controllare il runtime prima di eseguire qualsiasi carico di lavoro di produzione su un cluster Slurm su HyperPod, utilizza lo script di convalida del runtime hyperpod-precheck.py
Per eseguire lo script su più nodi contemporaneamente, utilizza srun come mostrato nel comando di esempio seguente per eseguire lo script su un cluster Slurm di 8 nodi.
# The following command runs on 8 nodes srun -N8python3 hyperpod-precheck.py
Nota
Per ulteriori informazioni sullo script di convalida, ad esempio sulle funzioni di convalida del runtime fornite dallo script e sulle linee guida per risolvere i problemi che non superano la convalida, consulta Runtime validation before running workloads