Monitoraggio dei progressi tra le iterazioni - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio dei progressi tra le iterazioni

Puoi tenere traccia delle metriche tramite MLflow.

Crea un'app MLflow

Utilizzo dell'interfaccia utente di Studio: se crei un lavoro di formazione tramite l'interfaccia utente di Studio, viene creata automaticamente MLflow un'app predefinita e selezionata per impostazione predefinita in Opzioni avanzate.

Utilizzo della CLI: se utilizzi la CLI, devi creare un' MLflow app e passarla come input alla richiesta API del lavoro di formazione.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Accedi all'app MLflow

Utilizzo della CLI: crea un URL prefirmato per accedere all'interfaccia utente dell' MLflow app:

aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text

Utilizzo dell'interfaccia utente di Studio: l'interfaccia utente di Studio mostra le metriche chiave archiviate MLflow e fornisce un collegamento all'interfaccia utente dell' MLflow app.

Metriche chiave da monitorare

Monitora queste metriche tra le iterazioni per valutare i miglioramenti e monitorare l'avanzamento del lavoro:

Per SFT

  • Curve di perdita in allenamento

  • Numero di campioni consumati e tempo di elaborazione dei campioni

  • Precisione delle prestazioni su set di test esauriti

  • Conformità del formato (ad esempio, velocità di output JSON valida)

  • Perplessità sui dati di valutazione specifici del dominio

Per RFT

  • Punteggi medi di ricompensa rispetto agli allenamenti

  • Distribuzione dei premi (percentuale di risposte ad alto rendimento)

  • Tendenze relative alla validazione e ai premi (attenzione all'overfit)

  • Percentuali di successo specifiche delle attività (ad esempio, velocità di esecuzione del codice, precisione dei problemi matematici)

Ambito generale

  • Effettua il benchmark dei delta prestazionali tra le iterazioni

  • Punteggi di valutazione umana su campioni rappresentativi

  • Metriche di produzione (se implementate in modo iterativo)

Determinare quando fermarsi

Interrompi l'iterazione quando:

  • Livelli prestazionali: la formazione aggiuntiva non migliora più in modo significativo le metriche target

  • Il cambio di tecnica aiuta: se una tecnica si stabilizza, prova a cambiarla (ad esempio, SFT → RFT → SFT) per superare i limiti prestazionali

  • Metriche obiettivo raggiunte: i tuoi criteri di successo sono soddisfatti

  • Regressione rilevata: le nuove iterazioni riducono le prestazioni (vedi le procedure di rollback di seguito)

Per le procedure di valutazione dettagliate, consulta la sezione Valutazione.