Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Cluster-Metriken
Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Workspace in Amazon Managed Grafana angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.
| Metrik-Kategorie | Standardmäßig aktiviert? | Zusätzliche erweiterte Metriken verfügbar? | Verfügbar unter welchen Grafana-Dashboards? |
|---|---|---|---|
| Trainingsmetriken | Ja | Ja | Training |
| Inferenzmetriken | Ja | Nein | Inferenz |
| Kennzahlen zur Aufgaben-Governance | Nein | Ja | Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen. |
| Skalierungsmetriken | Nein | Ja | Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen. |
| Cluster-Metriken | Ja | Ja | Cluster |
| Instance-Metriken | Ja | Ja | Cluster |
| Beschleunigte Rechenmetriken | Ja | Ja | Aufgabe, Cluster |
| Netzwerkmetriken | Nein | Ja | Cluster |
| Dateisystem | Ja | Nein | Dateisystem |
In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.
Verfügbarkeit von Metriken für eingeschränkte Instanzgruppen
Wenn Ihr Cluster eingeschränkte Instanzgruppen enthält, sind die meisten Metrikkategorien auf eingeschränkten Knoten verfügbar, mit den folgenden Ausnahmen und Überlegungen. Sie können auch Benachrichtigungen für jede Metrik Ihrer Wahl einrichten.
| Metrik-Kategorie | Auf RIG-Knoten verfügbar? | Hinweise |
|---|---|---|
| Trainingsmetriken | Ja | Kubeflow- und Kubernetes-Pod-Metriken werden gesammelt. KPI-Metriken für fortgeschrittene Schulungen (vom Training Metrics Agent) sind auf den RIG-Knoten nicht verfügbar. |
| Inferenzmetriken | Nein | Inferenz-Workloads werden in eingeschränkten Instanzgruppen nicht unterstützt. |
| Kennzahlen zur Aufgaben-Governance | Nein | Warteschlangenmetriken werden nur von den Standardknoten erfasst, sofern vorhanden. |
| Skalierungsmetriken | Nein | KEDA-Metriken werden nur von den Standardknoten erfasst, sofern vorhanden. |
| Cluster-Metriken | Ja | Kube State Metrics und API-Server-Metriken sind verfügbar. Kube State Metrics wird bevorzugt auf Standardknoten geplant, kann aber auch auf eingeschränkten Knoten in reinen RIG-Clustern ausgeführt werden. |
| Instance-Metriken | Ja | Node Exporter- und CADvisor-Metriken werden auf allen Knoten gesammelt, auch auf eingeschränkten Knoten. |
| Beschleunigte Rechenmetriken | Ja | DCGM Exporter läuft auf GPU-fähigen eingeschränkten Knoten. Neuron Monitor läuft auf NEURON-fähigen eingeschränkten Knoten, wenn der erweiterte Modus aktiviert ist. |
| Netzwerkmetriken | Ja | EFA Exporter läuft auf EFA-fähigen eingeschränkten Knoten, wenn der erweiterte Modus aktiviert ist. |
| Metriken für das Dateisystem | Ja | FSx für Lustre werden Metriken zur Cluster-Auslastung auf eingeschränkten Instanzgruppen unterstützt. |
Anmerkung
Die Erfassung von Container-Protokollen mit Fluent Bit wird auf eingeschränkten Knoten nicht bereitgestellt. Clusterprotokolle von eingeschränkten Knoten sind unabhängig vom SageMaker HyperPod Observability-Add-on über die Plattform verfügbar. Sie können diese Protokolle im Clusterprotokoll-Dashboard einsehen.
Trainingsmetriken
Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Kubeflow-Metriken | https://github.com/kubeflow/Trainer |
Ja | Kubeflow |
| Kubernetes-Pod-Metriken | https://github.com/kubernetes/kube-state-metrics |
Ja | Kubernetes |
training_uptime_percentage |
Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße | Nein | SageMaker HyperPod Schulung des Bedieners |
training_manual_recovery_count |
Gesamtzahl der während des Jobs durchgeführten manuellen Neustarts | Nein | SageMaker HyperPod ausbildender Betreiber |
training_manual_downtime_ms |
Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war | Nein | SageMaker HyperPod ausbildender Betreiber |
training_auto_recovery_count |
Gesamtzahl der automatischen Wiederherstellungen | Nein | SageMaker HyperPod ausbildender Betreiber |
training_auto_recovery_downtime |
Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_count |
Gesamtzahl der während des Trainings aufgetretenen Fehler | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_type_count |
Verteilung der Fehler nach Typ | Nein | SageMaker HyperPod ausbildender Betreiber |
training_fault_recovery_time_ms |
Wiederherstellungszeit in Millisekunden für jeden Fehlertyp | Nein | SageMaker HyperPod ausbildender Betreiber |
training_time_ms |
Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde | Nein | SageMaker HyperPod ausbildender Betreiber |
Inferenzmetriken
Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
model_invocations_total |
Gesamtzahl der Aufruf-Anforderungen an das Modell | Ja | SageMaker HyperPod Inferenzoperator |
model_errors_total |
Gesamtzahl der Fehler beim Modellaufruf | Ja | SageMaker HyperPod Inferenzoperator |
model_concurrent_requests |
Aktive gleichzeitige Modellanfragen | Ja | SageMaker HyperPod Inferenzoperator |
model_latency_milliseconds |
Modellieren einer Latenz für Aufrufe in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
model_ttfb_milliseconds |
Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
| TGI | Diese Metriken können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und um Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md |
Ja | Modellcontainer |
| LMI | Diese Metriken können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl |
Ja | Modellcontainer |
Kennzahlen zur Aufgaben-Governance
Verwenden Sie diese Metriken, um die Aufgabenverwaltung und die Ressourcenzuweisung auf dem SageMaker HyperPod Cluster zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Warteschlange | Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics |
Nein | Warteschlange |
Skalierungsmetriken
Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| KEDA-Operator-Metriken | Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
| KEDA-Webhook-Metriken | Siehe https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
| KEDA-Metrik-Server Metriken | Siehe https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
Nein | Kubernetes Event-Driven Autoscaler (KEDA) |
Cluster-Metriken
Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Cluster-Zustand | Metriken für Kubernetes-API-Server. Weitere Informationen finden Sie unter https://kubernetes. io/docs/reference/instrumentation/metrics |
Ja | Kubernetes |
| Kubestate | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Begrenzt | Kubernetes |
| KubeState Fortgeschritten | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Nein | Kubernetes |
Instance-Metriken
Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Knoten-Metriken | Siehe node_exporter? https://github.com/prometheus/ tab= #. readme-ov-file enabled-by-default |
Ja | Kubernetes |
| Containermetriken | Von Cadvisor veröffentlichte Container-Metriken. Siehe cadvisorhttps://github.com/google/. |
Ja | Kubernetes |
Beschleunigte Rechenmetriken
Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.
Anmerkung
Wenn die GPU-Partitionierung mit MIG (Multi-Instance-GPU) auf Ihrem Cluster aktiviert ist, bieten DCGM-Metriken automatisch Granularität auf Partitionsebene für die Überwachung einzelner MIG-Instanzen. Jede MIG-Partition wird als separates GPU-Gerät mit eigenen Messwerten für Temperatur, Leistung, Speicherauslastung und Rechenaktivität bereitgestellt. Auf diese Weise können Sie die Ressourcennutzung und den Zustand der Ressourcen für jede GPU-Partition unabhängig verfolgen und so eine präzise Überwachung der Workloads ermöglichen, die auf fraktionierten GPU-Ressourcen ausgeführt werden. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unter. Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| NVIDIA-GPU | DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp |
Begrenzt |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
|
NVIDIA-GPU (fortgeschritten) |
DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
Nein |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
| AWS Trainium | Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide |
Nein | AWS Neuronenmonitor |
Netzwerkmetriken
Verwenden Sie diese Metriken für die Überwachung der Leistung und des Zustands der Elastic Fabric Adapter (EFA) in Ihrem Cluster.
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| EFA | Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Nein | Elastic Fabric Adapter |
Metriken für das Dateisystem
| Metrikname oder -typ | Description | Standardmäßig aktiviert? | Quelle der Metrik |
|---|---|---|---|
| Dateisystem | Amazon FSx for Lustre-Metriken von Amazon CloudWatch: | Ja | Amazon FSx für Lustre |