Crea un'app MLflow Accedi all'app MLflow Metriche chiave da monitorare Determinare quando fermarsi

Monitoraggio dei progressi tra le iterazioni

Puoi tenere traccia delle metriche tramite MLflow.

Crea un'app MLflow

Utilizzo dell'interfaccia utente di Studio: se crei un lavoro di formazione tramite l'interfaccia utente di Studio, viene creata automaticamente MLflow un'app predefinita e selezionata per impostazione predefinita in Opzioni avanzate.

Utilizzo della CLI: se utilizzi la CLI, devi creare un' MLflow app e passarla come input alla richiesta API del lavoro di formazione.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Accedi all'app MLflow

Utilizzo della CLI: crea un URL prefirmato per accedere all'interfaccia utente dell' MLflow app:


aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text

Utilizzo dell'interfaccia utente di Studio: l'interfaccia utente di Studio mostra le metriche chiave archiviate MLflow e fornisce un collegamento all'interfaccia utente dell' MLflow app.

Metriche chiave da monitorare

Monitora queste metriche tra le iterazioni per valutare i miglioramenti e monitorare l'avanzamento del lavoro:

Per SFT

Curve di perdita in allenamento
Numero di campioni consumati e tempo di elaborazione dei campioni
Precisione delle prestazioni su set di test esauriti
Conformità del formato (ad esempio, velocità di output JSON valida)
Perplessità sui dati di valutazione specifici del dominio

Per RFT

Punteggi medi di ricompensa rispetto agli allenamenti
Distribuzione dei premi (percentuale di risposte ad alto rendimento)
Tendenze relative alla validazione e ai premi (attenzione all'overfit)
Percentuali di successo specifiche delle attività (ad esempio, velocità di esecuzione del codice, precisione dei problemi matematici)

Ambito generale

Effettua il benchmark dei delta prestazionali tra le iterazioni
Punteggi di valutazione umana su campioni rappresentativi
Metriche di produzione (se implementate in modo iterativo)

Determinare quando fermarsi

Interrompi l'iterazione quando:

Livelli prestazionali: la formazione aggiuntiva non migliora più in modo significativo le metriche target
Il cambio di tecnica aiuta: se una tecnica si stabilizza, prova a cambiarla (ad esempio, SFT → RFT → SFT) per superare i limiti prestazionali
Metriche obiettivo raggiunte: i tuoi criteri di successo sono soddisfatti
Regressione rilevata: le nuove iterazioni riducono le prestazioni (vedi le procedure di rollback di seguito)

Per le procedure di valutazione dettagliate, consulta la sezione Valutazione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fine-tuning dei rinforzi

Valutazione