Métriques d’entraînement Métriques d’inférence Métriques de gouvernance des tâches Métriques de mise à l’échelle Métriques du cluster Métriques des instances Métriques de calcul accéléré Métriques de réseau Métriques du système de fichiers

SageMaker HyperPod métriques du cluster

Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant montre quelles métriques sont activées par défaut lorsque vous installez le module complémentaire d’observabilité, quelles catégories comportent des métriques supplémentaires qui peuvent être activées pour obtenir des informations plus granulaires sur le cluster, et où elles apparaissent dans l’espace de travail Amazon Managed Grafana.

Catégorie de la métrique	Activée par défaut ?	Autres métriques avancées disponibles ?	Disponible dans quels tableaux de bord Grafana ?
Métriques d’entraînement	Oui	Oui	Entraînement
Métriques d’inférence	Oui	Non	Inférence
Métriques de gouvernance des tâches	Non	Oui	Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord.
Métriques de mise à l’échelle	Non	Oui	Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord.
Métriques du cluster	Oui	Oui	Cluster
Métriques des instances	Oui	Oui	Cluster
Métriques de calcul accéléré	Oui	Oui	Tâche, cluster
Métriques de réseau	Non	Oui	Cluster
Système de fichiers	Oui	Non	Système de fichiers

Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.

Métriques d’entraînement

Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
Métriques Kubeflow	https://github.com/kubeflow/entraîneur	Oui	Kubeflow
Métriques des pods Kubernetes	https://github.com/kubernetes/kube-state-metrics	Oui	Kubernetes
`training_uptime_percentage`	Pourcentage du temps d’entraînement par rapport à la taille totale de la fenêtre	Non	SageMaker HyperPod opérateur de formation
`training_manual_recovery_count`	Nombre total de redémarrages manuels effectués au cours de la tâche	Non	SageMaker HyperPod opérateur de formation
`training_manual_downtime_ms`	Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d’interventions manuelles	Non	SageMaker HyperPod opérateur de formation
`training_auto_recovery_count`	Nombre total de récupérations automatiques	Non	SageMaker HyperPod opérateur de formation
`training_auto_recovery_downtime`	Temps total de surcharge de l’infrastructure en millisecondes pendant la reprise après panne	Non	SageMaker HyperPod opérateur de formation
`training_fault_count`	Nombre total de défaillances rencontrées pendant l’entraînement	Non	SageMaker HyperPod opérateur de formation
`training_fault_type_count`	Distribution des défaillances par type	Non	SageMaker HyperPod opérateur de formation
`training_fault_recovery_time_ms`	Temps de récupération en millisecondes pour chaque type de défaillance	Non	SageMaker HyperPod opérateur de formation
`training_time_ms`	Temps total en millisecondes consacré à l’entraînement réel	Non	SageMaker HyperPod opérateur de formation

Métriques d’inférence

Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
`model_invocations_total`	Nombre total de demandes d’invocation adressées au modèle	Oui	SageMaker HyperPod opérateur d'inférence
`model_errors_total`	Nombre total d’erreurs lors de l’invocation du modèle	Oui	SageMaker HyperPod opérateur d'inférence
`model_concurrent_requests`	Demandes de modèle simultanées actives	Oui	SageMaker HyperPod opérateur d'inférence
`model_latency_milliseconds`	Latence d’invocation de modèle en millisecondes	Oui	SageMaker HyperPod opérateur d'inférence
`model_ttfb_milliseconds`	Latence du délai jusqu’au premier octet en millisecondes	Oui	SageMaker HyperPod opérateur d'inférence
TGI	Ces métriques peuvent être utilisées pour surveiller les performances de TGI, effectuer l’autoscaling du déploiement et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Oui	Conteneur de modèle
LMI	Ces métriques peuvent être utilisées pour surveiller les performances de LMI et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Oui	Conteneur de modèle

Métriques de gouvernance des tâches

Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
Kueue	Voir https://kueue.sigs.k8s. io/docs/reference/metrics/.	Non	Kueue

Métriques de mise à l’échelle

Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
Métriques de l’opérateur KEDA	Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator.	Non	Kubernetes Event-driven Autoscaler (KEDA)
Métriques du webhook KEDA	Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Non	Kubernetes Event-driven Autoscaler (KEDA)
Métriques du serveur de métriques KEDA	Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur.	Non	Kubernetes Event-driven Autoscaler (KEDA)

Métriques du cluster

Utilisez ces métriques pour surveiller l’état général du cluster et l’allocation des ressources.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
État du cluster	Métriques du serveur d’API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics/.	Oui	Kubernetes
Kubestate	Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Limité	Kubernetes
KubeState Avancé	Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Non	Kubernetes

Métriques des instances

Utilisez ces métriques pour surveiller les performances et l’état de chaque instance.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
Métriques des nœuds	Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default	Oui	Kubernetes
Métriques des conteneurs	Métriques relatives aux conteneurs, exposées par Cadvisor. Voir le https://github.com/google/conseiller.	Oui	Kubernetes

Métriques de calcul accéléré

Utilisez ces métriques pour surveiller les performances, l’état et l’utilisation des différents appareils de calcul accéléré de votre cluster.

Note

Lorsque le partitionnement du GPU avec MIG (GPU multi-instance) est activé sur votre cluster, les métriques DCGM fournissent automatiquement une granularité au niveau de la partition pour surveiller les instances MIG individuelles. Chaque partition MIG est exposée en tant que périphérique GPU distinct avec ses propres mesures de température, de puissance, d'utilisation de la mémoire et d'activité de calcul. Cela vous permet de suivre l'utilisation des ressources et l'état de santé de chaque partition GPU indépendamment, ce qui permet de surveiller avec précision les charges de travail exécutées sur des ressources GPU fractionnées. Pour plus d'informations sur la configuration du partitionnement du GPU, consultezUtilisation de partitions GPU dans Amazon SageMaker HyperPod.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
GPU NVIDIA	Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv.	Limité	Data Center GPU Manager (DCGM) NVIDIA
GPU NVIDIA (avancé)	Métriques DCGM mises en commentaires dans le fichier CSV suivant : https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp	Non	Data Center GPU Manager (DCGM) NVIDIA
AWSTrainium	Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters	Non	AWSMoniteur Neuron

Métriques de réseau

Utilisez ces métriques pour surveiller les performances et l’état des adaptateurs Elastic Fabric Adapters (EFA) de votre cluster.

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
EFA	Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Non	Elastic Fabric Adapter

Métriques du système de fichiers

Nom ou type de la métrique	Description	Activée par défaut ?	Source de la métrique
Système de fichiers	Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch : Surveillance avec Amazon CloudWatch.	Oui	Amazon FSx pour Lustre

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Métriques personnalisées

Alertes préconfigurées