Réparations de cluster en cas d’erreurs de GPU

Si vous exécutez une tâche d'entraînement qui échoue sur un GPU, SageMaker AI effectuera une vérification de l'état du GPU pour déterminer si l'échec est lié à un problème de GPU. SageMaker L'IA prend les mesures suivantes en fonction des résultats du bilan de santé :

Si l'erreur est récupérable et peut être corrigée en redémarrant l'instance ou en réinitialisant le GPU, SageMaker AI redémarrera l'instance.
Si l'erreur n'est pas réparable et qu'elle est causée par un GPU qui doit être remplacé, l' SageMaker IA remplacera l'instance.

L'instance est remplacée ou redémarrée dans le cadre d'un processus de réparation d'un cluster SageMaker AI. Au cours de ce processus, le message suivant s’affiche dans le statut de votre tâche d’entraînement :

Repairing training cluster due to hardware failure

SageMaker L'IA tentera de réparer le cluster 10 plusieurs fois. Si la réparation du cluster est réussie, l' SageMaker IA redémarrera automatiquement la tâche d'entraînement à partir du point de contrôle précédent. Si la réparation du cluster échoue, la tâche d’entraînement échoue également. Le processus de réparation de cluster ne vous est pas facturé. Les réparations de cluster ne débutent que si votre tâche d’entraînement échoue. Si un problème de GPU est détecté dans un cluster de groupe d’instances pré-initialisées, celui-ci passe en mode réparation pour redémarrer ou remplacer l’instance défectueuse. Après réparation, le cluster peut toujours être utilisé comme cluster d’instances pré-initialisées.

Le processus de réparation de clusters et d’instances décrit précédemment est illustré dans le diagramme suivant :

The cluster and instance repair process.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Reprise de l’entraînement à partir d’un point de contrôle

Nova Forge