SageMaker HyperPod gestion des clusters - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod gestion des clusters

Les rubriques suivantes traitent de la journalisation et de la gestion des SageMaker HyperPod clusters.

Journalisation SageMaker HyperPod des événements

Tous les événements et journaux SageMaker HyperPod sont enregistrés sur Amazon CloudWatch sous le nom du groupe de journaux/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Chaque appel à l’API CreateCluster crée un nouveau groupe de journaux. La liste suivante contient tous les flux de journaux disponibles collectés dans chaque groupe de journaux.

Nom du groupe de journaux Nom du flux de journaux
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

Journalisation SageMaker HyperPod au niveau de l'instance

Vous pouvez accéder aux LifecycleScript journaux publiés CloudWatch lors de la configuration de l'instance de cluster. Chaque instance de cluster créée génère un flux de journaux distinct, qui se distingue par son format LifecycleConfig/[instance-group-name]/[instance-id].

Tous les journaux écrits /var/log/provision/provisioning.log sont téléchargés dans le CloudWatch flux précédent. LifecycleScripts Échantillonnez lors de la 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configredirection de leur stdout et stderr vers cet emplacement. Si vous utilisez vos scripts personnalisés, rédigez vos journaux à l'/var/log/provision/provisioning.logendroit où ils seront disponibles CloudWatch.

Marqueurs du journal des scripts de cycle de

CloudWatch les journaux des scripts de cycle de vie incluent des marqueurs spécifiques pour vous aider à suivre la progression de l'exécution et à identifier les problèmes :

Marker Description
START Indicates the beginning of lifecycle script logs for the instance
[SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] Indicates the S3 location and entrypoint script that will be used
[SageMaker] Downloading lifecycle scripts Indicates scripts are being downloaded from the specified S3 location
[SageMaker] Lifecycle scripts have been downloaded Indicates scripts have been successfully downloaded from S3
[SageMaker] The lifecycle scripts succeeded Indicates successful completion of all lifecycle scripts
[SageMaker] The lifecycle scripts failed Indicates failed execution of lifecycle scripts

Ces marqueurs vous aident à identifier rapidement l'endroit où un problème s'est produit au cours du processus d'exécution du script du cycle de vie. Lorsque vous résolvez des problèmes, passez en revue les entrées du journal pour identifier l'endroit où le processus s'est arrêté ou a échoué.

Messages d'échec du script Lifecycle

Si le script de cycle de vie existe mais échoue lors de son exécution, vous recevrez un message d'erreur contenant le nom du groupe de CloudWatch journaux et le nom du flux de journaux. En cas d'échec du script de cycle de vie sur plusieurs instances, le message d'erreur indiquera qu'une seule instance a échoué, mais le groupe de journaux doit contenir des flux pour toutes les instances.

Vous pouvez afficher le message d'erreur en exécutant l'DescribeClusterAPI ou en consultant la page des détails du cluster dans la SageMaker console. Dans la console, un bouton Afficher les journaux des scripts de cycle de vie est fourni pour accéder directement au flux de CloudWatch journaux. Le message d'erreur est au format suivant :

Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.

Balisage de ressources

AWS Le système de balisage permet de gérer, d'identifier, d'organiser, de rechercher et de filtrer les ressources. SageMaker HyperPod prend en charge le balisage, afin que vous puissiez gérer les clusters en tant que AWS ressource. Lors de la création ou de la modification d’un cluster existant, vous pouvez ajouter ou modifier des balises pour le cluster. Pour en savoir plus sur le balisage en général, consultez Balisage de vos ressources AWS.

Utilisation de l'interface utilisateur SageMaker HyperPod de la console

Lorsque vous créez un nouveau cluster et modifiez un cluster, vous pouvez ajouter, supprimer ou modifier des balises.

À l'aide du SageMaker HyperPod APIs

Lorsque vous rédigez un fichier de demande d'UpdateClusterAPI CreateClusterou un fichier de demande d'API au format JSON, modifiez la Tags section.

Utilisation des commandes de AWS CLI balisage pour l'IA SageMaker

Pour baliser un cluster

Utilisez aws sagemaker add-tags comme suit.

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

Pour supprimer les balises d’un cluster

Utilisez aws sagemaker delete-tags comme suit.

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

Pour répertorier les balises d’une ressource

Utilisez aws sagemaker list-tags comme suit.

aws sagemaker list-tags --resource-arn cluster_ARN