Definisci le metriche utilizzando l'SDK SageMaker AI Python SageMaker Definisci le metriche utilizzando la console AI Definisci le metriche utilizzando l'API AI di basso livello SageMaker

Definizione dei parametri di training

SageMaker L'intelligenza artificiale analizza automaticamente i registri dei lavori di formazione e invia i parametri di formazione a. CloudWatch Per impostazione predefinita, l' SageMaker IA invia le metriche di utilizzo delle risorse di sistema elencate in SageMaker AI Jobs ed Endpoint Metrics. Se desideri che l' SageMaker IA analizzi i log e invii metriche personalizzate da un processo di formazione del tuo algoritmo a CloudWatch, devi specificare le definizioni delle metriche passando il nome delle metriche e delle espressioni regolari quando configuri una richiesta di lavoro di formazione sull'intelligenza artificiale. SageMaker

Puoi specificare le metriche che desideri monitorare utilizzando la console SageMaker AI, l'SDK SageMaker AI Python o l' SageMaker API AI di basso livello.

Se utilizzi il tuo algoritmo, procedi come riportato di seguito:

Assicurati che l'algoritmo scriva i parametri che devono essere acquisiti nei log.
Definisci un'espressione regolare che cerchi accuratamente nei log per acquisire i valori delle metriche a cui desideri inviare. CloudWatch

Ad esempio, supponi che l'algoritmo emetta i seguenti parametri per errore di addestramento ed errore di convalida:


Train_error=0.138318;  Valid_error=0.324557;

Se desideri monitorare entrambe queste metriche CloudWatch, il dizionario per le definizioni delle metriche dovrebbe essere simile al seguente esempio:


[
    {
        "Name": "train:error",
        "Regex": "Train_error=(.*?);"
    },
    {
        "Name": "validation:error",
        "Regex": "Valid_error=(.*?);"
    }    
]

Nell'espressione regolare per il parametro train:error definita in precedenza, la prima parte dell'espressione regolare trova il testo esatto "Train_error= " e l'espressione (.*?); acquisisce qualsiasi carattere fino al primo carattere punto e virgola. In questa espressione, la parentesi indicano alla regex di acquisire il loro contenuto, . significa qualsiasi carattere, * significa zero o più caratteri e ? significa acquisire solo fino alla prima istanza del carattere ;.

Definisci le metriche utilizzando l'SDK SageMaker AI Python

Definisci le metriche a cui desideri inviare CloudWatch specificando un elenco di nomi di metriche ed espressioni regolari come metric_definitions argomento quando inizializzi un oggetto. Estimator Ad esempio, se desideri monitorare sia le validation:error metriche che in CloudWatch, l'train:errorEstimatorinizializzazione sarà simile al seguente esempio:


import sagemaker
from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri="your-own-image-uri",
    role=sagemaker.get_execution_role(), 
    sagemaker_session=sagemaker.Session(),
    instance_count=1,
    instance_type='ml.c4.xlarge',
    metric_definitions=[
       {'Name': 'train:error', 'Regex': 'Train_error=(.*?);'},
       {'Name': 'validation:error', 'Regex': 'Valid_error=(.*?);'}
    ]
)

Per ulteriori informazioni sulla formazione utilizzando gli estimatori di Amazon SageMaker Python SDK, consulta Sagemaker Python SDK on. GitHub

SageMaker Definisci le metriche utilizzando la console AI

Se scegli l'opzione Il tuo contenitore di algoritmi in ECR come fonte dell'algoritmo nella console SageMaker AI quando crei un processo di formazione, aggiungi le definizioni delle metriche nella sezione Metriche. La schermata seguente mostra come dovrebbe funzionare dopo aver aggiunto i nomi dei parametri di esempio e le espressioni regolari corrispondenti.

Esempio di modulo delle opzioni dell’algoritmo nella console.

Definisci le metriche utilizzando l'API AI di basso livello SageMaker

Definisci le metriche a cui desideri inviare CloudWatch specificando un elenco di nomi di metriche ed espressioni regolari nel MetricDefinitions campo del parametro di AlgorithmSpecificationinput che passi all'operazione. CreateTrainingJob Ad esempio, se desideri monitorare sia le train:error validation:error metriche che in CloudWatch, AlgorithmSpecification avresti un aspetto simile al seguente:


"AlgorithmSpecification": {
    "TrainingImage": your-own-image-uri,
    "TrainingInputMode": "File",
    "MetricDefinitions" : [
        {
            "Name": "train:error",
            "Regex": "Train_error=(.*?);"
        },
        {
            "Name": "validation:error",
            "Regex": "Valid_error=(.*?);"
        }
    ]
}

Per ulteriori informazioni sulla definizione e l'esecuzione di un processo di formazione utilizzando l'API SageMaker AI di basso livello, consulta. CreateTrainingJob

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

CloudWatch Metriche per i lavori di formazione

Visualizzare le metriche dei job di addestramento