Gestione dei cluster SageMaker HyperPod - Amazon SageMaker AI

Gestione dei cluster SageMaker HyperPod

Gli argomenti seguenti trattano la registrazione di log e la gestione dei cluster SageMaker HyperPod.

Registrazione di log degli eventi SageMaker HyperPod

Tutti gli eventi e i log di SageMaker HyperPod vengono salvati su Amazon CloudWatch con il nome del gruppo di log /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Ogni chiamata all’API CreateCluster crea un nuovo gruppo di log. L’elenco seguente contiene tutti i flussi di log disponibili raccolti in ogni gruppo di log.

Nome del gruppo di log Nome del flusso di log
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

Registrazione di log di SageMaker HyperPod a livello di istanza

Puoi accedere ai log di LifecycleScript pubblicati su CloudWatch durante la configurazione dell’istanza del cluster. Ogni istanza all’interno del cluster creato genera un flusso di log separato, distinguibile in base al formato LifecycleConfig/[instance-group-name]/[instance-id].

Tutti i log scritti in /var/log/provision/provisioning.log vengono caricati nel flusso CloudWatch precedente. I LifecycleScript di esempio in 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config reindirizzano stdout e stderr in questa posizione. Se utilizzi script personalizzati, scrivi i log nella posizione /var/log/provision/provisioning.log in modo che siano disponibili in CloudWatch.

Applicazione di tag alle risorse

Il sistema di tagging AWS consente di gestire, identificare, organizzare, cercare e filtrare le risorse. SageMaker HyperPod supporta il tagging, quindi puoi gestire i cluster come una risorsa AWS. Durante la creazione o la modifica di un cluster esistente, puoi aggiungere o modificare i tag per il cluster. Per ulteriori informazioni generali sul tagging, consulta Tagging delle risorse AWS.

Utilizzo dell’interfaccia utente della console SageMaker HyperPod

Quando crei un nuovo cluster o modifichi un cluster, puoi aggiungere, modificare o rimuovere tag.

Utilizzo delle API SageMaker HyperPod

Quando scrivi un file di richiesta API CreateCluster o UpdateCluster in formato JSON, modificate la sezione Tags.

Utilizzo dei comandi di tagging della AWS CLI per SageMaker AI

Per taggare un cluster

Utilizza aws sagemaker add-tags come segue.

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

Per rimuovere un tag da un cluster

Utilizza aws sagemaker delete-tags come segue.

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

Per elencare i tag per una risorsa

Utilizza aws sagemaker list-tags come segue.

aws sagemaker list-tags --resource-arn cluster_ARN