Mise en quarantaine, remplacement ou redémarrage manuels d’un nœud

Découvrez comment mettre en quarantaine, remplacer et redémarrer manuellement un nœud défectueux dans des SageMaker HyperPod clusters orchestrés avec Amazon EKS.

Pour mettre un nœud en quarantaine et forcer la suppression d’un pod d’entraînement


kubectl cordon <node-name>

Après la quarantaine, expulsez de force le pod. Ceci est utile lorsque vous constatez qu’un pod est bloqué en phase de résiliation pendant plus de 30 minutes ou que kubectl describe pod affiche « Le nœud n’est pas prêt » dans Événements


kubectl delete pods <pod-name> --grace-period=0 --force

SageMaker HyperPod propose deux méthodes pour la restauration manuelle des nœuds. L'approche préférée consiste à utiliser le SageMaker HyperPod redémarrage et le remplacement APIs, qui fournissent un processus de restauration plus rapide et plus transparent qui fonctionne sur tous les orchestrateurs. Vous pouvez également utiliser les commandes kubectl pour étiqueter les nœuds pour les opérations de redémarrage et de remplacement. Les deux méthodes activent les mêmes processus SageMaker HyperPod de restauration.

Pour redémarrer un nœud à l'aide de l'API de redémarrage

Pour redémarrer un nœud, vous pouvez utiliser l' BatchRebootClusterNodes API.

Voici un exemple d'exécution de l'opération de redémarrage sur deux instances d'un cluster à l'aide de AWS Command Line Interface :


 aws sagemaker batch-reboot-cluster-nodes \
        --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \
        --node-ids i-0123456789abcdef0 i-0fedcba9876543210

Pour remplacer un nœud à l'aide de l'API Replace

Pour remplacer un nœud, vous pouvez utiliser l' BatchReplaceClusterNodes API comme suit

Voici un exemple d'exécution de l'opération de remplacement sur deux instances d'un cluster à l'aide de AWS Command Line Interface :


 aws sagemaker batch-replace-cluster-nodes \
        --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \
        --node-ids i-0123456789abcdef0 i-0fedcba9876543210

Pour remplacer un nœud à l'aide de kubectl

Étiquetez le nœud à remplacersagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, ce qui déclenche le SageMaker HyperPod Récupération automatique des nœuds. Notez que vous devez également activer la récupération automatique des nœuds lors de la création ou de la mise à jour du cluster.


kubectl label nodes <node-name> \
   sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Pour redémarrer un nœud à l'aide de kubectl

Étiquetez le nœud avec lequel redémarrersagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, ce qui déclenche le SageMaker HyperPod Récupération automatique des nœuds. Notez que vous devez également activer la récupération automatique des nœuds lors de la création ou de la mise à jour du cluster.


kubectl label nodes <node-name> \
   sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Une fois les étiquettes UnschedulablePendingReplacement UnschedulablePendingReboot appliquées, vous devriez être en mesure de voir que le nœud est arrêté ou redémarré dans quelques minutes.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Étiquettes Kubernetes liées à la résilience

Configurations de résilience suggérées