Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Accesso e analisi dei risultati di valutazione
Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.
I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.
Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.
Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:
-
prompt - Il prompt finale inviato al modello
-
inference - L’output di inferenza non elaborato del modello
-
gold - La risposta target dal set di dati di input
-
metadata - La stringa di metadati del set di dati di input, se fornita
Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:
-
Passa a AI SageMaker Tensorboard.
-
Seleziona Cartelle S3.
-
Aggiungi il percorso della cartella S3, ad esempio
s3://output_path/job-name/eval-tensorboard-result/eval. -
Attendi il completamento della sincronizzazione.
Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.
È preferibile seguire le best practice seguenti:
-
Mantieni i percorsi di output organizzati per modello e tipo di benchmark.
-
Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.
-
Salva i risultati estratti in una posizione sicura.
-
Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.
È possibile trovare i log degli errori di HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.