Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio dei progressi tra le iterazioni
Puoi tenere traccia delle metriche tramite MLflow.
Crea un'app MLflow
Utilizzo dell'interfaccia utente di Studio: se crei un lavoro di formazione tramite l'interfaccia utente di Studio, viene creata automaticamente MLflow un'app predefinita e selezionata per impostazione predefinita in Opzioni avanzate.
Utilizzo della CLI: se utilizzi la CLI, devi creare un' MLflow app e passarla come input alla richiesta API del lavoro di formazione.
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
Accedi all'app MLflow
Utilizzo della CLI: crea un URL prefirmato per accedere all'interfaccia utente dell' MLflow app:
aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text
Utilizzo dell'interfaccia utente di Studio: l'interfaccia utente di Studio mostra le metriche chiave archiviate MLflow e fornisce un collegamento all'interfaccia utente dell' MLflow app.
Metriche chiave da monitorare
Monitora queste metriche tra le iterazioni per valutare i miglioramenti e monitorare l'avanzamento del lavoro:
Per SFT
-
Curve di perdita in allenamento
-
Numero di campioni consumati e tempo di elaborazione dei campioni
-
Precisione delle prestazioni su set di test esauriti
-
Conformità del formato (ad esempio, velocità di output JSON valida)
-
Perplessità sui dati di valutazione specifici del dominio
Per RFT
-
Punteggi medi di ricompensa rispetto agli allenamenti
-
Distribuzione dei premi (percentuale di risposte ad alto rendimento)
-
Tendenze relative alla validazione e ai premi (attenzione all'overfit)
-
Percentuali di successo specifiche delle attività (ad esempio, velocità di esecuzione del codice, precisione dei problemi matematici)
Ambito generale
-
Effettua il benchmark dei delta prestazionali tra le iterazioni
-
Punteggi di valutazione umana su campioni rappresentativi
-
Metriche di produzione (se implementate in modo iterativo)
Determinare quando fermarsi
Interrompi l'iterazione quando:
-
Livelli prestazionali: la formazione aggiuntiva non migliora più in modo significativo le metriche target
-
Il cambio di tecnica aiuta: se una tecnica si stabilizza, prova a cambiarla (ad esempio, SFT → RFT → SFT) per superare i limiti prestazionali
-
Metriche obiettivo raggiunte: i tuoi criteri di successo sono soddisfatti
-
Regressione rilevata: le nuove iterazioni riducono le prestazioni (vedi le procedure di rollback di seguito)
Per le procedure di valutazione dettagliate, consulta la sezione Valutazione.