Vérifications de surveillance de l’état de base - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vérifications de surveillance de l’état de base

SageMaker HyperPod effectue un ensemble de contrôles de santé de base sur les instances de cluster lors de la création et de la mise à jour des HyperPod clusters. Ces contrôles de santé de base sont indépendants de l'orchestrateur. Ils sont donc applicables quelles que soient les plateformes d'orchestration sous-jacentes prises en charge par ( SageMaker HyperPod Amazon EKS ou Slurm).

Les vérifications de surveillance de l’état de base surveillent les instances de cluster pour détecter les problèmes liés aux appareils tels que les accélérateurs (GPU et cœurs Trainium) et les périphériques réseau (Elastic Fabric Adapter ou EFA). Pour trouver la liste des vérifications de surveillance de l’état de base du cluster, consultez Vérifications de surveillance de l’état du cluster.