Beobachtbarkeit von Clustern und Aufgaben
Es gibt zwei Optionen für die Überwachung von SageMaker HyperPod-Clustern:
Das SageMaker HyperPod Observability Add-on — SageMaker HyperPod bietet ein umfangreiches, sofort einsatzbereites Dashboard, das Ihnen Einblicke in die Entwicklungsaufgaben und Cluster-Ressourcen von Foundation Model (FM) bietet. Diese vereinheitlichte Observability-Lösung veröffentlicht automatisch wichtige Metriken in Amazon Managed Service für Prometheus und zeigt sie in Amazon-Managed Grafana-Dashboards an. Die Dashboards wurden speziell für die FM-Entwicklung optimiert und decken umfassende Informationen zum Zustand der Hardware, zur Ressourcennutzung und zur Leistung auf Aufgabenebene ab. Mit diesem Add-on können Sie Zustands- und Leistungsdaten aus NVIDIA DCGM, Kubernetes-Knotenexporteuren auf Instance-Ebene, Elastic Fabric Adapter, integrierten Dateisystemen, Kubernetes-APIs, Kueue und Task-Operatoren von SageMaker HyperPod konsolidieren.
Amazon CloudWatch Insights — Amazon CloudWatch Insights erfasst Metriken für Rechenressourcen wie z B. CPU, Arbeitsspeicher, Datenträger und Netzwerk. Container Insights bietet auch Diagnoseinformationen, wie z. B.Fehler beim Container-Neustart, damit Sie Probleme schnell aufdecken und beheben können. Sie können für die von Container Insights gesammelten Metriken auch CloudWatch-Alarme einrichten.