Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Cluster-Metriken
Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Workspace in Amazon Managed Grafana angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.
| Metrik-Kategorie | Standardmäßig aktiviert? | Zusätzliche erweiterte Metriken verfügbar? | Verfügbar unter welchen Grafana-Dashboards? |
|---|---|---|---|
| Trainingsmetriken | Ja | Ja | Training |
| Inferenzmetriken | Ja | Nein | Inferenz |
| Kennzahlen zur Task-Governance | Nein | Ja | Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen. |
| Skalierungsmetriken | Nein | Ja | Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen. |
| Cluster-Metriken | Ja | Ja | Cluster |
| Instance-Metriken | Ja | Ja | Cluster |
| Beschleunigte Rechenmetriken | Ja | Ja | Aufgabe, Cluster |
| Netzwerkmetriken | Nein | Ja | Cluster |
| Dateisystem | Ja | Nein | Dateisystem |
In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.
Trainingsmetriken
Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Kubeflow-Metriken | https://github.com/kubeflow/Trainer |
Ja | Kubeflow |
| Kubernetes-Pod-Metriken | https://github.com/kubernetes/kube-state-metrics |
Ja | Kubernetes |
training_uptime_percentage |
Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße | Nein | SageMaker HyperPod Schulung des Bedieners |
training_manual_recovery_count |
Gesamtzahl der während des Jobs durchgeführten manuellen Neustarts | Nein | SageMaker HyperPod ausbildender Betreiber |
training_manual_downtime_ms |
Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war | Nein | SageMaker HyperPod ausbildender Betreiber |
training_auto_recovery_count |
Gesamtzahl der automatischen Wiederherstellungen | Nein | SageMaker HyperPod ausbildender Betreiber |
training_auto_recovery_downtime |
Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_count |
Gesamtzahl der während des Trainings aufgetretenen Fehler | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_type_count |
Verteilung der Fehler nach Typ | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_recovery_time_ms |
Wiederherstellungszeit in Millisekunden für jeden Fehlertyp | Nein | SageMaker HyperPod ausbildender Betreiber |
training_time_ms |
Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde | Nein | SageMaker HyperPod ausbildender Betreiber |
Inferenzmetriken
Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
model_invocations_total |
Gesamtzahl der Aufruf-Anforderungen an das Modell | Ja | SageMaker HyperPod Inferenzoperator |
model_errors_total |
Gesamtzahl der Fehler beim Modellaufruf | Ja | SageMaker HyperPod Inferenzoperator |
model_concurrent_requests |
Aktive gleichzeitige Modellanfragen | Ja | SageMaker HyperPod Inferenzoperator |
model_latency_milliseconds |
Modellieren einer Latenz für Aufrufe in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
model_ttfb_milliseconds |
Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
| TGI | Diese Metriken können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und um Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md |
Ja | Modellcontainer |
| LMI | Diese Metriken können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl |
Ja | Modellcontainer |
Kennzahlen zur Task-Governance
Verwenden Sie diese Metriken, um die Aufgabenverwaltung und die Ressourcenzuweisung auf dem SageMaker HyperPod Cluster zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Warteschlange | Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics |
Nein | Warteschlange |
Skalierungsmetriken
Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| KEDA-Operator-Metriken | Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
| KEDA-Webhook-Metriken | Siehe https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
| KEDA-Metrik-Server Metriken | Siehe https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
Cluster-Metriken
Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Cluster-Zustand | Metriken für Kubernetes-API-Server. Siehe https://kubernetes. io/docs/reference/instrumentation/metrics |
Ja | Kubernetes |
| Kubestate | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Begrenzt | Kubernetes |
| KubeState Fortgeschritten | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Nein | Kubernetes |
Instance-Metriken
Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Knoten-Metriken | Siehe node_exporter? https://github.com/prometheus/ tab= #. readme-ov-file enabled-by-default |
Ja | Kubernetes |
| Containermetriken | Von Cadvisor veröffentlichte Container-Metriken. Siehe cadvisorhttps://github.com/google/. |
Ja | Kubernetes |
Beschleunigte Rechenmetriken
Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.
Anmerkung
Wenn die GPU-Partitionierung mit MIG (Multi-Instance-GPU) auf Ihrem Cluster aktiviert ist, bieten DCGM-Metriken automatisch Granularität auf Partitionsebene für die Überwachung einzelner MIG-Instanzen. Jede MIG-Partition wird als separates GPU-Gerät mit eigenen Messwerten für Temperatur, Leistung, Speicherauslastung und Rechenaktivität bereitgestellt. Auf diese Weise können Sie die Ressourcennutzung und den Zustand der Ressourcen für jede GPU-Partition unabhängig verfolgen und so eine präzise Überwachung der Workloads ermöglichen, die auf fraktionierten GPU-Ressourcen ausgeführt werden. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unter. Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| NVIDIA-GPU | DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp |
Begrenzt |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
|
NVIDIA-GPU (fortgeschritten) |
DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
Nein |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
| AWSTrainium | Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide |
Nein | AWSNeuronenmonitor |
Netzwerkmetriken
Verwenden Sie diese Metriken für die Überwachung der Leistung und des Zustands der Elastic Fabric Adapter (EFA) in Ihrem Cluster.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| EFA | Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Nein | Elastic Fabric Adapter |
Metriken für das Dateisystem
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Dateisystem | Amazon FSx for Lustre-Metriken von Amazon CloudWatch: | Ja | Amazon FSx für Lustre |