SageMaker HyperPod métriques du cluster - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod métriques du cluster

Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant montre quelles métriques sont activées par défaut lorsque vous installez le module complémentaire d’observabilité, quelles catégories comportent des métriques supplémentaires qui peuvent être activées pour obtenir des informations plus granulaires sur le cluster, et où elles apparaissent dans l’espace de travail Amazon Managed Grafana.

Catégorie de la métrique Activée par défaut ? Autres métriques avancées disponibles ? Disponible dans quels tableaux de bord Grafana ?
Métriques d’entraînement Oui Oui Entraînement
Métriques d’inférence Oui Non Inférence
Métriques de gouvernance des tâches Non Oui Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord.
Métriques de mise à l’échelle Non Oui Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord.
Métriques du cluster Oui Oui Cluster
Métriques des instances Oui Oui Cluster
Métriques de calcul accéléré Oui Oui Tâche, cluster
Métriques de réseau Non Oui Cluster
Système de fichiers Oui Non Système de fichiers

Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.

Métriques d’entraînement

Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
Métriques Kubeflow https://github.com/kubeflow/entraîneur Oui Kubeflow
Métriques des pods Kubernetes https://github.com/kubernetes/kube-state-metrics Oui Kubernetes
training_uptime_percentage Pourcentage du temps d’entraînement par rapport à la taille totale de la fenêtre Non SageMaker HyperPod opérateur de formation
training_manual_recovery_count Nombre total de redémarrages manuels effectués au cours de la tâche Non SageMaker HyperPod opérateur de formation
training_manual_downtime_ms Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d’interventions manuelles Non SageMaker HyperPod opérateur de formation
training_auto_recovery_count Nombre total de récupérations automatiques Non SageMaker HyperPod opérateur de formation
training_auto_recovery_downtime Temps total de surcharge de l’infrastructure en millisecondes pendant la reprise après panne Non SageMaker HyperPod opérateur de formation
training_fault_count Nombre total de défaillances rencontrées pendant l’entraînement Non SageMaker HyperPod opérateur de formation
training_fault_type_count Distribution des défaillances par type Non SageMaker HyperPod opérateur de formation
training_fault_recovery_time_ms Temps de récupération en millisecondes pour chaque type de défaillance Non SageMaker HyperPod opérateur de formation
training_time_ms Temps total en millisecondes consacré à l’entraînement réel Non SageMaker HyperPod opérateur de formation

Métriques d’inférence

Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
model_invocations_total Nombre total de demandes d’invocation adressées au modèle Oui SageMaker HyperPod opérateur d'inférence
model_errors_total Nombre total d’erreurs lors de l’invocation du modèle Oui SageMaker HyperPod opérateur d'inférence
model_concurrent_requests Demandes de modèle simultanées actives Oui SageMaker HyperPod opérateur d'inférence
model_latency_milliseconds Latence d’invocation de modèle en millisecondes Oui SageMaker HyperPod opérateur d'inférence
model_ttfb_milliseconds Latence du délai jusqu’au premier octet en millisecondes Oui SageMaker HyperPod opérateur d'inférence
TGI Ces métriques peuvent être utilisées pour surveiller les performances de TGI, effectuer l’autoscaling du déploiement et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Oui Conteneur de modèle
LMI Ces métriques peuvent être utilisées pour surveiller les performances de LMI et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Oui Conteneur de modèle

Métriques de gouvernance des tâches

Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
Kueue Voir https://kueue.sigs.k8s. io/docs/reference/metrics/. Non Kueue

Métriques de mise à l’échelle

Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
Métriques de l’opérateur KEDA Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator. Non Kubernetes Event-driven Autoscaler (KEDA)
Métriques du webhook KEDA Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Non Kubernetes Event-driven Autoscaler (KEDA)
Métriques du serveur de métriques KEDA Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur. Non Kubernetes Event-driven Autoscaler (KEDA)

Métriques du cluster

Utilisez ces métriques pour surveiller l’état général du cluster et l’allocation des ressources.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
État du cluster Métriques du serveur d’API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics/. Oui Kubernetes
Kubestate Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limité Kubernetes
KubeState Avancé Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Non Kubernetes

Métriques des instances

Utilisez ces métriques pour surveiller les performances et l’état de chaque instance.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
Métriques des nœuds Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default Oui Kubernetes
Métriques des conteneurs Métriques relatives aux conteneurs, exposées par Cadvisor. Voir le https://github.com/google/conseiller. Oui Kubernetes

Métriques de calcul accéléré

Utilisez ces métriques pour surveiller les performances, l’état et l’utilisation des différents appareils de calcul accéléré de votre cluster.

Note

Lorsque le partitionnement du GPU avec MIG (GPU multi-instance) est activé sur votre cluster, les métriques DCGM fournissent automatiquement une granularité au niveau de la partition pour surveiller les instances MIG individuelles. Chaque partition MIG est exposée en tant que périphérique GPU distinct avec ses propres mesures de température, de puissance, d'utilisation de la mémoire et d'activité de calcul. Cela vous permet de suivre l'utilisation des ressources et l'état de santé de chaque partition GPU indépendamment, ce qui permet de surveiller avec précision les charges de travail exécutées sur des ressources GPU fractionnées. Pour plus d'informations sur la configuration du partitionnement du GPU, consultezUtilisation de partitions GPU dans Amazon SageMaker HyperPod.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
GPU NVIDIA Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv. Limité

Data Center GPU Manager (DCGM) NVIDIA

GPU NVIDIA (avancé)

Métriques DCGM mises en commentaires dans le fichier CSV suivant :

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

Non

Data Center GPU Manager (DCGM) NVIDIA

AWSTrainium Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters Non AWSMoniteur Neuron

Métriques de réseau

Utilisez ces métriques pour surveiller les performances et l’état des adaptateurs Elastic Fabric Adapters (EFA) de votre cluster.

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
EFA Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Non Elastic Fabric Adapter

Métriques du système de fichiers

Nom ou type de la métrique Description Activée par défaut ? Source de la métrique
Système de fichiers Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch :

Surveillance avec Amazon CloudWatch.

Oui Amazon FSx pour Lustre