Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod métriques du cluster
Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant montre quelles métriques sont activées par défaut lorsque vous installez le module complémentaire d’observabilité, quelles catégories comportent des métriques supplémentaires qui peuvent être activées pour obtenir des informations plus granulaires sur le cluster, et où elles apparaissent dans l’espace de travail Amazon Managed Grafana.
| Catégorie de la métrique | Activée par défaut ? | Autres métriques avancées disponibles ? | Disponible dans quels tableaux de bord Grafana ? |
|---|---|---|---|
| Métriques d’entraînement | Oui | Oui | Entraînement |
| Métriques d’inférence | Oui | Non | Inférence |
| Métriques de gouvernance des tâches | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. |
| Métriques de mise à l’échelle | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. |
| Métriques du cluster | Oui | Oui | Cluster |
| Métriques des instances | Oui | Oui | Cluster |
| Métriques de calcul accéléré | Oui | Oui | Tâche, cluster |
| Métriques de réseau | Non | Oui | Cluster |
| Système de fichiers | Oui | Non | Système de fichiers |
Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.
Métriques d’entraînement
Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques Kubeflow | https://github.com/kubeflow/entraîneur |
Oui | Kubeflow |
| Métriques des pods Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Oui | Kubernetes |
training_uptime_percentage |
Pourcentage du temps d’entraînement par rapport à la taille totale de la fenêtre | Non | SageMaker HyperPod opérateur de formation |
training_manual_recovery_count |
Nombre total de redémarrages manuels effectués au cours de la tâche | Non | SageMaker HyperPod opérateur de formation |
training_manual_downtime_ms |
Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d’interventions manuelles | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_count |
Nombre total de récupérations automatiques | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_downtime |
Temps total de surcharge de l’infrastructure en millisecondes pendant la reprise après panne | Non | SageMaker HyperPod opérateur de formation |
training_fault_count |
Nombre total de défaillances rencontrées pendant l’entraînement | Non | SageMaker HyperPod opérateur de formation |
training_fault_type_count |
Distribution des défaillances par type | Non | SageMaker HyperPod opérateur de formation |
training_fault_recovery_time_ms |
Temps de récupération en millisecondes pour chaque type de défaillance | Non | SageMaker HyperPod opérateur de formation |
training_time_ms |
Temps total en millisecondes consacré à l’entraînement réel | Non | SageMaker HyperPod opérateur de formation |
Métriques d’inférence
Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
model_invocations_total |
Nombre total de demandes d’invocation adressées au modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_errors_total |
Nombre total d’erreurs lors de l’invocation du modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_concurrent_requests |
Demandes de modèle simultanées actives | Oui | SageMaker HyperPod opérateur d'inférence |
model_latency_milliseconds |
Latence d’invocation de modèle en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
model_ttfb_milliseconds |
Latence du délai jusqu’au premier octet en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
| TGI | Ces métriques peuvent être utilisées pour surveiller les performances de TGI, effectuer l’autoscaling du déploiement et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Conteneur de modèle |
| LMI | Ces métriques peuvent être utilisées pour surveiller les performances de LMI et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Conteneur de modèle |
Métriques de gouvernance des tâches
Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Kueue | Voir https://kueue.sigs.k8s. io/docs/reference/metrics |
Non | Kueue |
Métriques de mise à l’échelle
Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques de l’opérateur KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
| Métriques du webhook KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
| Métriques du serveur de métriques KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur. |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
Métriques du cluster
Utilisez ces métriques pour surveiller l’état général du cluster et l’allocation des ressources.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| État du cluster | Métriques du serveur d’API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics |
Oui | Kubernetes |
| Kubestate | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limité | Kubernetes |
| KubeState Avancé | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Non | Kubernetes |
Métriques des instances
Utilisez ces métriques pour surveiller les performances et l’état de chaque instance.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques des nœuds | Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default |
Oui | Kubernetes |
| Métriques des conteneurs | Métriques relatives aux conteneurs, exposées par Cadvisor. Voir le https://github.com/google/conseiller. |
Oui | Kubernetes |
Métriques de calcul accéléré
Utilisez ces métriques pour surveiller les performances, l’état et l’utilisation des différents appareils de calcul accéléré de votre cluster.
Note
Lorsque le partitionnement du GPU avec MIG (GPU multi-instance) est activé sur votre cluster, les métriques DCGM fournissent automatiquement une granularité au niveau de la partition pour surveiller les instances MIG individuelles. Chaque partition MIG est exposée en tant que périphérique GPU distinct avec ses propres mesures de température, de puissance, d'utilisation de la mémoire et d'activité de calcul. Cela vous permet de suivre l'utilisation des ressources et l'état de santé de chaque partition GPU indépendamment, ce qui permet de surveiller avec précision les charges de travail exécutées sur des ressources GPU fractionnées. Pour plus d'informations sur la configuration du partitionnement du GPU, consultezUtilisation de partitions GPU dans Amazon SageMaker HyperPod.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| GPU NVIDIA | Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv |
Limité |
Data Center GPU Manager (DCGM) NVIDIA |
|
GPU NVIDIA (avancé) |
Métriques DCGM mises en commentaires dans le fichier CSV suivant : https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Non |
Data Center GPU Manager (DCGM) NVIDIA |
| AWSTrainium | Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Non | AWSMoniteur Neuron |
Métriques de réseau
Utilisez ces métriques pour surveiller les performances et l’état des adaptateurs Elastic Fabric Adapters (EFA) de votre cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| EFA | Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Non | Elastic Fabric Adapter |
Métriques du système de fichiers
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Système de fichiers | Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch : | Oui | Amazon FSx pour Lustre |