Metriche di addestramento Metriche di inferenza Metriche di governance delle attività Metriche di dimensionamento Parametri cluster Parametri dell'istanza Metriche di calcolo accelerate Metriche di rete Metriche del file system

SageMaker HyperPod metriche del cluster

Amazon SageMaker HyperPod (SageMaker HyperPod) pubblica diverse metriche in 9 categorie distinte nell'area di lavoro Amazon Managed Service for Prometheus. Non tutte le metriche sono abilitate per impostazione predefinita o visualizzate nello spazio di lavoro Grafana gestito da Amazon. La tabella seguente mostra quali metriche sono abilitate per impostazione predefinita quando installi il componente aggiuntivo Observability, quali categorie hanno metriche aggiuntive che possono essere abilitate per ottenere informazioni più granulari sul cluster e dove vengono visualizzate tali metriche nello spazio di lavoro Grafana gestito da Amazon.

Categoria parametro	Abilitata per impostazione predefinita?	Sono disponibili ulteriori metriche avanzate?	In quali dashboard Grafana è disponibile?
Metriche di addestramento	Sì	Sì	Addestramento
Metriche di inferenza	Sì	No	Inferenza
Metriche di governance delle attività	No	Sì	Nessuna. Effettua una query sullo spazio di lavoro del Servizio gestito da Amazon per Prometheus per creare la tua dashboard.
Metriche di dimensionamento	No	Sì	Nessuna. Effettua una query sullo spazio di lavoro del Servizio gestito da Amazon per Prometheus per creare la tua dashboard.
Parametri cluster	Sì	Sì	Cluster
Parametri dell'istanza	Sì	Sì	Cluster
Metriche di calcolo accelerate	Sì	Sì	Attività, cluster
Metriche di rete	No	Sì	Cluster
File system	Sì	No	File system

Le tabelle seguenti descrivono le metriche disponibili per il monitoraggio del cluster, organizzate per categoria. SageMaker HyperPod

Metriche di addestramento

Utilizza queste metriche per tenere traccia delle prestazioni delle attività di formazione eseguite sul SageMaker HyperPod cluster.

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
Metriche Kubeflow	https://github.com/kubeflow/trainer	Sì	Kubeflow
Metriche dei pod di Kubernetes	https://github.com/kubernetes/kube-state-metrics	Sì	Kubernetes
`training_uptime_percentage`	Percentuale di tempo di addestramento rispetto alla finestra di tempo totale	No	SageMaker HyperPod operatore di formazione
`training_manual_recovery_count`	Numero totale di riavvii manuali eseguiti sul processo	No	SageMaker HyperPod operatore addetto alla formazione
`training_manual_downtime_ms`	Tempo totale in millisecondi in cui il processo è stato interrotto a causa di interventi manuali	No	SageMaker HyperPod operatore addetto alla formazione
`training_auto_recovery_count`	Numero totale di ripristini automatici	No	SageMaker HyperPod operatore addetto alla formazione
`training_auto_recovery_downtime`	Tempo totale di sovraccarico dell’infrastruttura in millisecondi durante il ripristino dei guasti	No	SageMaker HyperPod operatore addetto alla formazione
`training_fault_count`	Numero totale di guasti riscontrati durante l’addestramento	No	SageMaker HyperPod operatore addetto alla formazione
`training_fault_type_count`	Distribuzione dei guasti per tipo	No	SageMaker HyperPod operatore addetto alla formazione
`training_fault_recovery_time_ms`	Tempo di ripristino in millisecondi per ogni tipo di guasto	No	SageMaker HyperPod operatore addetto alla formazione
`training_time_ms`	Tempo totale in millisecondi dedicato all’addestramento effettivo	No	SageMaker HyperPod operatore addetto alla formazione

Metriche di inferenza

Utilizza queste metriche per tenere traccia delle prestazioni delle attività di inferenza sul SageMaker HyperPod cluster.

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
`model_invocations_total`	Numero totale di richieste di invocazione al modello	Sì	SageMaker HyperPod operatore di inferenza
`model_errors_total`	Numero totale di errori durante l’invocazione del modello	Sì	SageMaker HyperPod operatore di inferenza
`model_concurrent_requests`	Richieste di modelli simultanee attive	Sì	SageMaker HyperPod operatore di inferenza
`model_latency_milliseconds`	Latenza di invocazione del modello in millisecondi	Sì	SageMaker HyperPod operatore di inferenza
`model_ttfb_milliseconds`	Latenza del tempo al primo byte (Time To First Byte, TTFB) del modello in millisecondi	Sì	SageMaker HyperPod operatore di inferenza
TGI	Queste metriche possono essere utilizzate per monitorare le prestazioni del TGI, eseguire il dimensionamento automatico dell’implementazione e identificare i colli di bottiglia. Per un elenco dettagliato delle metriche, vedere https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README	Sì	Container del modello
LMI	Queste metriche possono essere utilizzate per monitorare le prestazioni dell’LMI e identificare i colli di bottiglia. Per un elenco dettagliato delle metriche, vedere https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README	Sì	Container del modello

Metriche di governance delle attività

Utilizza queste metriche per monitorare la governance delle attività e l'allocazione delle risorse nel cluster. SageMaker HyperPod

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
Kueue	Vedi https://kueue.sigs.k8s. io/docs/reference/metrics/.	No	Kueue

Metriche di dimensionamento

Utilizza queste metriche per monitorare il comportamento e le prestazioni dell'auto-scaling sul cluster. SageMaker HyperPod

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
Metriche dell’operatore KEDA	Vedi https://keda. sh/docs/2.17/integrations/prometheus/#operator.	No	Kubernetes Event-Driven Autoscaler (KEDA)
Metriche del webhook KEDA	Vedi https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	No	Kubernetes Event-Driven Autoscaler (KEDA)
Metriche del server di metriche KEDA	Vedi https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server.	No	Kubernetes Event-Driven Autoscaler (KEDA)

Parametri cluster

Utilizza queste metriche per monitorare l’integrità complessiva del cluster e l’allocazione delle risorse.

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
Integrità del cluster	Metriche del server API Kubernetes. Vedi https://kubernetes. io/docs/reference/instrumentation/metrics/.	Sì	Kubernetes
KubeState	Vedi https://github.com/kubernetes/kube-state-metrics/#default -resources tree/main/docs.	Limitato	Kubernetes
KubeState Avanzato	Vedi https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	No	Kubernetes

Parametri dell'istanza

Utilizza queste metriche per monitorare le prestazioni e l’integrità delle singole istanze.

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
Metriche dei nodi	Vedi node_exporter? https://github.com/prometheus/ readme-ov-filetab= # enabled-by-default.	Sì	Kubernetes
Metriche dei container	Metriche dei container esposte da Cadvisor. Vedi cadvisor. https://github.com/google/	Sì	Kubernetes

Metriche di calcolo accelerate

Utilizza queste metriche per monitorare le prestazioni, l’integrità e l’utilizzo dei singoli dispositivi di calcolo accelerati nel tuo cluster.

Nota

Quando il partizionamento della GPU con MIG (Multi-Instance GPU) è abilitato sul cluster, le metriche DCGM forniscono automaticamente la granularità a livello di partizione per il monitoraggio delle singole istanze MIG. Ogni partizione MIG è esposta come un dispositivo GPU separato con parametri propri per temperatura, potenza, utilizzo della memoria e attività di calcolo. Ciò consente di tenere traccia dell'utilizzo e dello stato delle risorse per ciascuna partizione GPU in modo indipendente, consentendo un monitoraggio preciso dei carichi di lavoro in esecuzione su risorse GPU frazionarie. Per ulteriori informazioni sulla configurazione del partizionamento della GPU, vedere. Utilizzo delle partizioni GPU in Amazon SageMaker HyperPod

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
GPU NVIDIA	Metriche di DCGM. Vedere dcgm- -metrics-included.csvhttps://github.com/NVIDIA/. exporter/blob/main/etc/dcp	Limitato	NVIDIA Data Center GPU Manager (DCGM)
GPU NVIDIA (avanzata)	Metriche di DCGM disattivate nel seguente file CSV: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp	No	NVIDIA Data Center GPU Manager (DCGM)
AWS Trainium	Metriche di Neuron. Vedi https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters	No	AWS Monitor neuronale

Metriche di rete

Utilizza queste metriche per monitorare le prestazioni e l’integrità degli Elastic Fabric Adapters (EFA) del cluster.

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
EFA	Vedi https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	No	Elastic Fabric Adapter

Metriche del file system

Nome o tipo di metrica	Description	Abilitata per impostazione predefinita?	Origine metrica
File system	Metriche FSx di Amazon for Lustre di Amazon: CloudWatch Monitoraggio con Amazon CloudWatch.	Sì	Amazon FSx per Lustre

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

parametri personalizzati

Avvisi preconfigurati