SageMaker HyperPod gestione dei cluster - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod gestione dei cluster

Negli argomenti seguenti vengono illustrate la registrazione e la gestione dei cluster. SageMaker HyperPod

Registrazione degli eventi SageMaker HyperPod

Tutti gli eventi e i log di SageMaker HyperPod vengono salvati su Amazon CloudWatch con il nome /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] del gruppo di log. Ogni chiamata all’API CreateCluster crea un nuovo gruppo di log. L’elenco seguente contiene tutti i flussi di log disponibili raccolti in ogni gruppo di log.

Nome del gruppo di log Nome del flusso di log
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

Registrazione a SageMaker HyperPod livello di istanza

È possibile accedere ai LifecycleScript log pubblicati CloudWatch durante la configurazione dell'istanza del cluster. Ogni istanza all’interno del cluster creato genera un flusso di log separato, distinguibile in base al formato LifecycleConfig/[instance-group-name]/[instance-id].

Tutti i log in cui vengono scritti /var/log/provision/provisioning.log vengono caricati nel flusso precedente CloudWatch . Sample LifecycleScripts at 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configreindirizza il loro terreno stderr verso stdout questa posizione. Se utilizzi script personalizzati, scrivi i log nella /var/log/provision/provisioning.log posizione in cui saranno disponibili. CloudWatch

Marcatori di log degli script del ciclo di vita

CloudWatch i log per gli script del ciclo di vita includono marcatori specifici che consentono di tenere traccia dell'avanzamento dell'esecuzione e identificare i problemi:

Marker Descrizione
START Indicates the beginning of lifecycle script logs for the instance
[SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] Indicates the S3 location and entrypoint script that will be used
[SageMaker] Downloading lifecycle scripts Indicates scripts are being downloaded from the specified S3 location
[SageMaker] Lifecycle scripts have been downloaded Indicates scripts have been successfully downloaded from S3
[SageMaker] The lifecycle scripts succeeded Indicates successful completion of all lifecycle scripts
[SageMaker] The lifecycle scripts failed Indicates failed execution of lifecycle scripts

Questi marcatori consentono di identificare rapidamente in quale fase del processo di esecuzione degli script del ciclo di vita si è verificato un problema. Durante la risoluzione dei problemi, esaminate le voci di registro per identificare dove il processo si è interrotto o non è riuscito.

Messaggi di errore dello script del ciclo di vita

Se lo script del ciclo di vita esiste ma fallisce durante l'esecuzione, riceverai un messaggio di errore che include il nome del gruppo di log e il nome del flusso di CloudWatch log. Nel caso in cui si verifichino errori dello script del ciclo di vita su più istanze, il messaggio di errore indicherà solo un'istanza fallita, ma il gruppo di log deve contenere flussi per tutte le istanze.

È possibile visualizzare il messaggio di errore eseguendo l'DescribeClusterAPI o visualizzando la pagina dei dettagli del cluster nella console. SageMaker Nella console, è disponibile il pulsante Visualizza i registri degli script del ciclo di vita che accede direttamente al flusso di log. CloudWatch Il messaggio di errore ha il seguente formato:

Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.

Applicazione di tag alle risorse

AWS Il sistema di etichettatura aiuta a gestire, identificare, organizzare, cercare e filtrare le risorse. SageMaker HyperPod supporta l'etichettatura, in modo da poter gestire i cluster come risorsa. AWS Durante la creazione o la modifica di un cluster esistente, puoi aggiungere o modificare i tag per il cluster. Per ulteriori informazioni generali sul tagging, consulta Tagging delle risorse AWS.

Utilizzo dell'interfaccia utente della console SageMaker HyperPod

Quando crei un nuovo cluster o modifichi un cluster, puoi aggiungere, modificare o rimuovere tag.

Usando il SageMaker HyperPod APIs

Quando scrivi un file di richiesta CreateClustero UpdateClusterAPI in formato JSON, modifica la Tags sezione.

Utilizzo dei comandi di AWS CLI tagging per l'IA SageMaker

Per taggare un cluster

Utilizza aws sagemaker add-tags come segue.

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

Per rimuovere un tag da un cluster

Utilizza aws sagemaker delete-tags come segue.

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

Per elencare i tag per una risorsa

Utilizza aws sagemaker list-tags come segue.

aws sagemaker list-tags --resource-arn cluster_ARN