Réparations de cluster en cas d’erreurs de GPU
Si vous exécutez une tâche d’entraînement qui échoue sur un GPU, SageMaker AI effectuera une surveillance de l’état du GPU afin de déterminer si la défaillance est liée à un problème de GPU. SageMaker AI prend les mesures suivantes en fonction des résultats de la surveillance de l’état :
Si l’erreur est récupérable et peut être résolue en redémarrant l’instance ou en réinitialisant le GPU, SageMaker AI redémarre l’instance.
Si l’erreur n’est pas récupérable et qu’elle est due à un GPU qui doit être remplacé, SageMaker AI remplace l’instance.
L’instance est remplacée ou redémarrée dans le cadre d’un processus de réparation de cluster SageMaker AI. Au cours de ce processus, le message suivant s’affiche dans le statut de votre tâche d’entraînement :
Repairing training cluster due to hardware failure
SageMaker AI essaiera de réparer le cluster jusqu’à 10 fois. Si la réparation du cluster réussit, SageMaker AI redémarre automatiquement la tâche d’entraînement depuis le point de contrôle précédent. Si la réparation du cluster échoue, la tâche d’entraînement échoue également. Le processus de réparation de cluster ne vous est pas facturé. Les réparations de cluster ne débutent que si votre tâche d’entraînement échoue. Si un problème de GPU est détecté dans un cluster de groupe d’instances pré-initialisées, celui-ci passe en mode réparation pour redémarrer ou remplacer l’instance défectueuse. Après réparation, le cluster peut toujours être utilisé comme cluster d’instances pré-initialisées.
Le processus de réparation de clusters et d’instances décrit précédemment est illustré dans le diagramme suivant :