Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Agent de surveillance de la santé
Cette section décrit l'ensemble des contrôles de santé SageMaker HyperPod utilisés pour surveiller régulièrement l'état des instances de cluster afin de détecter des problèmes liés à des appareils tels que les accélérateurs (GPU et cœurs Trainium) et le réseau (EFA). SageMaker HyperPod un agent de surveillance de l'état de santé (HMA) surveille en permanence l'état de santé de chaque instance basée sur un GPU ou Trainium. Lorsqu’il détecte une défaillance d’instance ou de GPU, l’agent marque l’instance comme étant défectueuse.
SageMaker HyperPod HMA effectue les mêmes contrôles de santé pour les orchestrateurs EKS et Slurm. Pour plus d'informations sur le HMA, consultezSystème de surveillance de la santé.