Gestione dei cluster SageMaker HyperPod
Gli argomenti seguenti trattano la registrazione di log e la gestione dei cluster SageMaker HyperPod.
Registrazione di log degli eventi SageMaker HyperPod
Tutti gli eventi e i log di SageMaker HyperPod vengono salvati su Amazon CloudWatch con il nome del gruppo di log /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Ogni chiamata all’API CreateCluster crea un nuovo gruppo di log. L’elenco seguente contiene tutti i flussi di log disponibili raccolti in ogni gruppo di log.
| Nome del gruppo di log | Nome del flusso di log |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
Registrazione di log di SageMaker HyperPod a livello di istanza
Puoi accedere ai log di LifecycleScript pubblicati su CloudWatch durante la configurazione dell’istanza del cluster. Ogni istanza all’interno del cluster creato genera un flusso di log separato, distinguibile in base al formato LifecycleConfig/[instance-group-name]/[instance-id].
Tutti i log scritti in /var/log/provision/provisioning.log vengono caricati nel flusso CloudWatch precedente. I LifecycleScript di esempio in 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configstdout e stderr in questa posizione. Se utilizzi script personalizzati, scrivi i log nella posizione /var/log/provision/provisioning.log in modo che siano disponibili in CloudWatch.
Applicazione di tag alle risorse
Il sistema di tagging AWS consente di gestire, identificare, organizzare, cercare e filtrare le risorse. SageMaker HyperPod supporta il tagging, quindi puoi gestire i cluster come una risorsa AWS. Durante la creazione o la modifica di un cluster esistente, puoi aggiungere o modificare i tag per il cluster. Per ulteriori informazioni generali sul tagging, consulta Tagging delle risorse AWS.
Utilizzo dell’interfaccia utente della console SageMaker HyperPod
Quando crei un nuovo cluster o modifichi un cluster, puoi aggiungere, modificare o rimuovere tag.
Utilizzo delle API SageMaker HyperPod
Quando scrivi un file di richiesta API CreateCluster o UpdateCluster in formato JSON, modificate la sezione Tags.
Utilizzo dei comandi di tagging della AWS CLI per SageMaker AI
Per taggare un cluster
Utilizza aws sagemaker add-tags come segue.
aws sagemaker add-tags --resource-arncluster_ARN--tags Key=string,Value=string
Per rimuovere un tag da un cluster
Utilizza aws sagemaker delete-tags come segue.
aws sagemaker delete-tags --resource-arncluster_ARN--tag-keys"tag_key"
Per elencare i tag per una risorsa
Utilizza aws sagemaker list-tags come segue.
aws sagemaker list-tags --resource-arncluster_ARN