Accedi ai dati del profilo
La classe SMDebug TrainingJob legge i dati dal bucket S3 in cui vengono salvati i parametri del sistema e del framework.
Per configurare un oggetto TrainingJob e recuperare i file degli eventi di profilazione di un processo di addestramento
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Suggerimento
È necessario specificare i parametri training_job_name e region per accedere a un processo di addestramento. Ci sono due modi per specificare le informazioni sul processo di addestramento:
-
Usa SageMaker Python SDK mentre lo strumento di valutazione è ancora collegato al processo di addestramento.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name -
Passa le stringhe direttamente.
training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Nota
Per impostazione predefinita, Debugger SageMaker raccoglie i parametri di sistema per monitorare l'utilizzo delle risorse hardware e i colli di bottiglia del sistema. Eseguendo le seguenti funzioni, potresti ricevere messaggi di errore relativi all'indisponibilità dei parametri del framework. Per recuperare i dati di profilazione del framework e ottenere informazioni dettagliate sulle operazioni del framework, è necessario abilitare la profilazione del framework.
-
Se usi SageMaker Python SDK per manipolare la tua richiesta di processo di addestramento, inoltra il
framework_profile_paramsall'argomentoprofiler_configdel tuo strumento di valutazione. Per ulteriori informazioni, consulta Configurazione della profilazione del framework di Debugger SageMaker. -
Se utilizzi Studio Classic, attiva la profilazione utilizzando il pulsante di attivazione della profilazione nella dashboard delle informazioni di Debugger. Per ulteriori informazioni, consulta Controller della dashboard delle informazioni di Debugger SageMaker.
Per recuperare una descrizione della descrizione del processo di addestramento e l'URI del bucket S3 in cui vengono salvati i dati dei parametri
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
Per verificare se i parametri del sistema e del framework sono disponibili nell'URI S3
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
Per creare oggetti di lettura del sistema e del framework dopo che i dati dei parametri sono diventati disponibili
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
Per aggiornare e recuperare i file degli eventi di addestramento più recenti
Gli oggetti reader hanno un metodo esteso, refresh_event_file_list(), per recuperare i file degli eventi di addestramento più recenti.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()