Accesso e analisi dei risultati di valutazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accesso e analisi dei risultati di valutazione

Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.

I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:

  • prompt - Il prompt finale inviato al modello

  • inference - L’output di inferenza non elaborato del modello

  • gold - La risposta target dal set di dati di input

  • metadata - La stringa di metadati del set di dati di input, se fornita

Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:

  1. Passa a AI SageMaker Tensorboard.

  2. Seleziona Cartelle S3.

  3. Aggiungi il percorso della cartella S3, ad esempio s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Attendi il completamento della sincronizzazione.

Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.

È preferibile seguire le best practice seguenti:

  • Mantieni i percorsi di output organizzati per modello e tipo di benchmark.

  • Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.

  • Salva i risultati estratti in una posizione sicura.

  • Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.

È possibile trovare i log degli errori di HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.