Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réparations de cluster en cas d’erreurs de GPU
Si vous exécutez une tâche d'entraînement qui échoue sur un GPU, SageMaker AI effectuera une vérification de l'état du GPU pour déterminer si l'échec est lié à un problème de GPU. SageMaker L'IA prend les mesures suivantes en fonction des résultats du bilan de santé :
Si l'erreur est récupérable et peut être corrigée en redémarrant l'instance ou en réinitialisant le GPU, SageMaker AI redémarrera l'instance.
Si l'erreur n'est pas réparable et qu'elle est causée par un GPU qui doit être remplacé, l' SageMaker IA remplacera l'instance.
L'instance est remplacée ou redémarrée dans le cadre d'un processus de réparation d'un cluster SageMaker AI. Au cours de ce processus, le message suivant s’affiche dans le statut de votre tâche d’entraînement :
Repairing training cluster due to hardware failure
SageMaker L'IA tentera de réparer le cluster 10 plusieurs fois. Si la réparation du cluster est réussie, l' SageMaker IA redémarrera automatiquement la tâche d'entraînement à partir du point de contrôle précédent. Si la réparation du cluster échoue, la tâche d’entraînement échoue également. Le processus de réparation de cluster ne vous est pas facturé. Les réparations de cluster ne débutent que si votre tâche d’entraînement échoue. Si un problème de GPU est détecté dans un cluster de groupe d’instances pré-initialisées, celui-ci passe en mode réparation pour redémarrer ou remplacer l’instance défectueuse. Après réparation, le cluster peut toujours être utilisé comme cluster d’instances pré-initialisées.
Le processus de réparation de clusters et d’instances décrit précédemment est illustré dans le diagramme suivant :