SageMaker HyperPod resiliencia del clúster

SageMaker HyperPod mediante la orquestación de Slurm, proporciona las siguientes funciones de resiliencia de clústeres.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Métricas de Slurm

Agente de monitorización de la salud