Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod gestion des clusters
Les rubriques suivantes traitent de la journalisation et de la gestion des SageMaker HyperPod clusters.
Journalisation SageMaker HyperPod des événements
Tous les événements et journaux SageMaker HyperPod sont enregistrés sur Amazon CloudWatch sous le nom du groupe de journaux/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Chaque appel à l’API CreateCluster crée un nouveau groupe de journaux. La liste suivante contient tous les flux de journaux disponibles collectés dans chaque groupe de journaux.
| Nom du groupe de journaux | Nom du flux de journaux |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
Journalisation SageMaker HyperPod au niveau de l'instance
Vous pouvez accéder aux LifecycleScript journaux publiés CloudWatch lors de la configuration de l'instance de cluster. Chaque instance de cluster créée génère un flux de journaux distinct, qui se distingue par son format LifecycleConfig/[instance-group-name]/[instance-id].
Tous les journaux écrits /var/log/provision/provisioning.log sont téléchargés dans le CloudWatch flux précédent. LifecycleScripts Échantillonnez lors de la 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configstdout et stderr vers cet emplacement. Si vous utilisez vos scripts personnalisés, rédigez vos journaux à l'/var/log/provision/provisioning.logendroit où ils seront disponibles CloudWatch.
Marqueurs du journal des scripts de cycle de
CloudWatch les journaux des scripts de cycle de vie incluent des marqueurs spécifiques pour vous aider à suivre la progression de l'exécution et à identifier les problèmes :
| Marker | Description |
START |
Indicates the beginning of lifecycle script logs for the instance |
[SageMaker] Lifecycle scripts were provided, with S3 uri: |
Indicates the S3 location and entrypoint script that will be used |
[SageMaker] Downloading lifecycle scripts |
Indicates scripts are being downloaded from the specified S3 location |
[SageMaker] Lifecycle scripts have been downloaded |
Indicates scripts have been successfully downloaded from S3 |
[SageMaker] The lifecycle scripts succeeded |
Indicates successful completion of all lifecycle scripts |
[SageMaker] The lifecycle scripts failed |
Indicates failed execution of lifecycle scripts |
Ces marqueurs vous aident à identifier rapidement l'endroit où un problème s'est produit au cours du processus d'exécution du script du cycle de vie. Lorsque vous résolvez des problèmes, passez en revue les entrées du journal pour identifier l'endroit où le processus s'est arrêté ou a échoué.
Messages d'échec du script Lifecycle
Si le script de cycle de vie existe mais échoue lors de son exécution, vous recevrez un message d'erreur contenant le nom du groupe de CloudWatch journaux et le nom du flux de journaux. En cas d'échec du script de cycle de vie sur plusieurs instances, le message d'erreur indiquera qu'une seule instance a échoué, mais le groupe de journaux doit contenir des flux pour toutes les instances.
Vous pouvez afficher le message d'erreur en exécutant l'DescribeClusterAPI ou en consultant la page des détails du cluster dans la SageMaker console. Dans la console, un bouton Afficher les journaux des scripts de cycle de vie est fourni pour accéder directement au flux de CloudWatch journaux. Le message d'erreur est au format suivant :
Instance[instance-id]failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
Balisage de ressources
AWS Le système de balisage permet de gérer, d'identifier, d'organiser, de rechercher et de filtrer les ressources. SageMaker HyperPod prend en charge le balisage, afin que vous puissiez gérer les clusters en tant que AWS ressource. Lors de la création ou de la modification d’un cluster existant, vous pouvez ajouter ou modifier des balises pour le cluster. Pour en savoir plus sur le balisage en général, consultez Balisage de vos ressources AWS.
Utilisation de l'interface utilisateur SageMaker HyperPod de la console
Lorsque vous créez un nouveau cluster et modifiez un cluster, vous pouvez ajouter, supprimer ou modifier des balises.
À l'aide du SageMaker HyperPod APIs
Lorsque vous rédigez un fichier de demande d'UpdateClusterAPI CreateClusterou un fichier de demande d'API au format JSON, modifiez la Tags section.
Utilisation des commandes de AWS CLI balisage pour l'IA SageMaker
Pour baliser un cluster
Utilisez aws sagemaker add-tags comme suit.
aws sagemaker add-tags --resource-arncluster_ARN--tags Key=string,Value=string
Pour supprimer les balises d’un cluster
Utilisez aws sagemaker delete-tags comme suit.
aws sagemaker delete-tags --resource-arncluster_ARN--tag-keys"tag_key"
Pour répertorier les balises d’une ressource
Utilisez aws sagemaker list-tags comme suit.
aws sagemaker list-tags --resource-arncluster_ARN