Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPodOsservabilità di Amazon con Amazon Managed Grafana e Amazon Managed Service for Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) offre una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione unificata di osservabilità pubblica automaticamente le metriche chiave in Servizio gestito da Amazon per Prometheus e le visualizza nelle dashboard di Grafana gestito da Amazon. Le dashboard sono ottimizzate specificamente per lo sviluppo di FM con una copertura approfondita dello stato di integrità dell’hardware, dell’utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni provenienti da NVIDIA DCGM, dagli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dai file system integrati, da Kubernetes, Kueue e dai task operator. APIs SageMaker HyperPod
Argomenti
SageMaker HyperPodConfigurazione del componente aggiuntivo di osservabilità
Esplorazione delle metriche dei SageMaker HyperPod cluster in Amazon Managed Grafana
Personalizzazione delle metriche, dei dashboard e degli avvisi SageMaker HyperPod del cluster.
Creazione di metriche di cluster personalizzate SageMaker HyperPod
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability