Accès aux données du profil - Amazon SageMaker AI

Accès aux données du profil

La classe TrainingJob SMDebug lit les données à partir du compartiment S3 dans lequel les métriques système et de cadre sont enregistrées.

Pour configurer un objet TrainingJob et récupérer les fichiers d'événements de profilage d'une tâche d'entraînement

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Astuce

Vous devez spécifier les paramètres training_job_name et region pour vous connecter à une tâche d'entraînement. Il existe deux façons de spécifier les informations sur les tâches d'entraînement :

  • Utilisez le kit SDK Python SageMaker pendant que l'estimateur est toujours attaché à la tâche d'entraînement.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passez les chaînes directement.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Note

Par défaut, SageMaker Debugger collecte des métriques système pour contrôler l'utilisation des ressources matérielles et les goulets d'étranglement du système. En exécutant les fonctions suivantes, vous pouvez recevoir des messages d'erreur concernant l'indisponibilité des métriques du framework. Pour récupérer les données de profilage du cadre et obtenir des informations sur les opérations du cadre, vous devez en activer le profilage.

Pour récupérer une description de la tâche d'entraînement et de l'URI du compartiment S3 où les données de métriques sont enregistrées

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Pour vérifier si les métriques système et de framework sont disponibles à partir de l'URI S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Pour créer des objets de lecteur de système et de framework une fois que les données de métriques sont disponibles

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Pour actualiser et récupérer les derniers fichiers d'événements d'entraînement

Les objets du lecteur ont une méthode étendue, refresh_event_file_list(), afin de récupérer les fichiers les plus récents des événements d'entraînement.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()