Accès aux données du profil
La classe TrainingJob SMDebug lit les données à partir du compartiment S3 dans lequel les métriques système et de cadre sont enregistrées.
Pour configurer un objet TrainingJob et récupérer les fichiers d'événements de profilage d'une tâche d'entraînement
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Astuce
Vous devez spécifier les paramètres training_job_name et region pour vous connecter à une tâche d'entraînement. Il existe deux façons de spécifier les informations sur les tâches d'entraînement :
-
Utilisez le kit SDK Python SageMaker pendant que l'estimateur est toujours attaché à la tâche d'entraînement.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name -
Passez les chaînes directement.
training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Note
Par défaut, SageMaker Debugger collecte des métriques système pour contrôler l'utilisation des ressources matérielles et les goulets d'étranglement du système. En exécutant les fonctions suivantes, vous pouvez recevoir des messages d'erreur concernant l'indisponibilité des métriques du framework. Pour récupérer les données de profilage du cadre et obtenir des informations sur les opérations du cadre, vous devez en activer le profilage.
-
Si vous utilisez le kit SDK SageMaker Python pour manipuler votre demande de tâche d'entraînement, transmettez les
framework_profile_paramsà l'argumentprofiler_configde votre estimateur. Pour en savoir plus, consultez Configurer le profilage du cadre Debugger. -
Si vous utilisez Studio Classic, activez le profilage à l’aide du bouton Profilage dans le tableau de bord Debugger Insights. Pour en savoir plus, consultez Contrôleur de tableau de bord SageMaker Debugger Insights.
Pour récupérer une description de la tâche d'entraînement et de l'URI du compartiment S3 où les données de métriques sont enregistrées
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
Pour vérifier si les métriques système et de framework sont disponibles à partir de l'URI S3
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
Pour créer des objets de lecteur de système et de framework une fois que les données de métriques sont disponibles
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
Pour actualiser et récupérer les derniers fichiers d'événements d'entraînement
Les objets du lecteur ont une méthode étendue, refresh_event_file_list(), afin de récupérer les fichiers les plus récents des événements d'entraînement.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()