Accesso e analisi dei risultati di valutazione

Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.

I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:

prompt - Il prompt finale inviato al modello
inference - L’output di inferenza non elaborato del modello
gold - La risposta target dal set di dati di input
metadata - La stringa di metadati del set di dati di input, se fornita

Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:

Passa a AI SageMaker Tensorboard.
Seleziona Cartelle S3.
Aggiungi il percorso della cartella S3, ad esempio s3://output_path/job-name/eval-tensorboard-result/eval.
Attendi il completamento della sincronizzazione.

Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.

È preferibile seguire le best practice seguenti:

Mantieni i percorsi di output organizzati per modello e tipo di benchmark.
Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.
Salva i risultati estratti in una posizione sicura.
Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.

È possibile trovare i log degli errori di HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Avvio di un processo di valutazione

Valutazione RFT