Reparaciones de clústeres para corregir errores en la GPU - Amazon SageMaker AI

Reparaciones de clústeres para corregir errores en la GPU

Si está realizando un trabajo de entrenamiento que no funciona en una GPU, SageMaker AI realizará una comprobación de estado de la GPU para comprobar si el error está relacionado con un problema de la GPU. SageMaker AI lleva a cabo las siguientes acciones en función de los resultados de la comprobación de estado:

  • Si el error se puede solucionar reiniciando la instancia o restableciendo la GPU, SageMaker AI reiniciará la instancia.

  • Si el error no se puede solucionar y se debe a la necesidad de sustituir una GPU, SageMaker AI sustituirá la instancia.

La instancia se sustituye o se reinicia como parte de un proceso de reparación de clústeres de SageMaker AI. Durante este proceso, aparecerá el siguiente mensaje en el estado del trabajo de entrenamiento:

Repairing training cluster due to hardware failure

SageMaker AI intentará reparar el clúster un máximo de 10 veces. Si la reparación del clúster se realiza correctamente, SageMaker AI reiniciará automáticamente el trabajo de entrenamiento a partir del punto de comprobación anterior. Si se produce un error en la reparación del clúster, también se producirá un error en el trabajo de entrenamiento. No se le cobrará por el proceso de reparación del clúster. Las reparaciones de los clústeres no se iniciarán a no ser que se produzca un error en el trabajo de entrenamiento. Si se detecta un problema con la GPU en un clúster de grupo en caliente, el clúster pasará al modo de reparación para reiniciar o reemplazar la instancia errónea. Tras la reparación, el clúster podrá seguir utilizándose como clúster de grupo en caliente.

El proceso de reparación de clústeres e instancias que se ha descrito anteriormente se representa en el siguiente diagrama:

The cluster and instance repair process.