Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Informazioni sui parametri delle ricette
Configurazione run
Di seguito è riportata una configurazione di tipo run generale con una spiegazione dei parametri coinvolti.
run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: "" output_s3_path: s3://output_path mlflow_tracking_uri: "" mlflow_experiment_name : "" mlflow_run_name : ""
-
name: (obbligatorio) un nome descrittivo per il processo di valutazione. Questo aiuta a identificare il tuo lavoro nella AWS console. -
model_type: (obbligatorio) specifica la variante del modello Amazon Nova da utilizzare. Non modificare manualmente questo campo. Le opzioni includono:-
amazon.nova-micro-v1:0:128k -
amazon.nova-lite-v1:0:300k -
amazon.nova-pro-v1:0:300k -
amazon.nova-2-lite-v1:0:256k
-
-
model_name_or_path: (obbligatorio) il percorso del modello di base o il percorso S3 per il checkpoint post-addestrato. Le opzioni includono:-
nova-micro/prod -
nova-lite/prod -
nova-pro/prod -
nova-lite-2/prod -
(Percorso S3 per il checkpoint post-addestrato)
s3://<escrow bucket>/<job id>/outputs/checkpoints
-
-
replicas: (obbligatorio) il numero di istanze di calcolo da utilizzare per l’addestramento distribuito. È necessario impostare questo valore su 1, perché la modalità multinodo non è supportata. -
data_s3_path: (obbligatorio) il percorso S3 del set di dati di input. Lascia vuoto questo parametro, se non in caso di utilizzo di una ricetta Bring Your Own Dataset o LLM-as-a-judge. -
output_s3_path: (obbligatorio) il percorso S3 per archiviare gli artefatti di valutazione dell’output. Il bucket S3 di output deve essere creato dallo stesso account che crea il processo. -
mlflow_tracking_uri: (Opzionale) ARN del server di MLflow tracciamento per tracciare MLFlow esecuzioni/esperimenti. Assicurati di avere il permesso di accedere al server di tracciamento dal SageMaker ruolo di esecuzione AI
Configurazione evaluation
Di seguito è riportata una configurazione di tipo evaluation del modello con una spiegazione dei parametri coinvolti.
evaluation: task: mmlu strategy: zs_cot subtask: mathematics metric: accuracy
-
task: (obbligatorio) specifica il benchmark o l’attività di valutazione da utilizzare.Elenco delle attività supportate:
-
mmlu
-
mmlu_pro
-
bbh
-
gpqa
-
matematica
-
strong_reject
-
gen_qa
-
ifeval
-
llm_judge
-
humaneval
-
mm_llm_judge
-
rubric_llm_judge
-
aime_2024
-
calendario_programmazione
-
humaneval
-
-
strategy: (obbligatorio) definisce l’approccio di valutazione:-
zs_cot: Zero-shot Chain-of-Thought - Un approccio per suggerire modelli linguistici di grandi dimensioni che incoraggia il ragionamento senza richiedere esempi espliciti. step-by-step
-
zs: Zero-shot - Un approccio per risolvere un problema senza esempi di addestramento precedenti.
-
gen_qa: una strategia specifica per ricette di tipo Bring Your Own Dataset.
-
judge: una strategia specifica per Amazon Nova LLM come Judge e mm_llm_judge.
-
-
subtask: (facoltativo e rimovibile) specifica una determinata sottoattività per alcune attività di valutazione. Rimuovila dalla tua ricetta se la tua attività non include sottoattività. -
metric: (obbligatorio) la metrica di valutazione da utilizzare.-
accuracy: percentuale di risposte corrette
-
exact_match: (per il benchmark
math), restituisce la velocità con cui le stringhe previste nell’input corrispondono esattamente ai loro riferimenti. -
deflection: (per il benchmark
strong reject), restituisce la deviazione relativa rispetto al modello di base e la differenza nelle metriche di significatività. -
pass@1: (per il benchmark
humaneval) è una metrica utilizzata per misurare la percentuale di casi in cui la previsione con la massima affidabilità del modello corrisponde alla risposta corretta. -
all: restituisce le seguenti metriche:-
Per un benchmark Bring Your Own Dataset e
gen_qa, restituisce le seguenti metriche:-
rouge1: misura la sovrapposizione di unigrammi (parole singole) tra il testo generato e quello di riferimento. -
rouge2: misura la sovrapposizione di bigrammi (due parole consecutive) tra il testo generato e quello di riferimento. -
rougeL: misura la sottosequenza comune più lunga tra testi, tenendo conto di lacune nella corrispondenza. -
exact_match: punteggio binario (0 oppure 1) che indica se il testo generato corrisponde esattamente al testo di riferimento, carattere per carattere. -
quasi_exact_match: simile alla corrispondenza esatta, ma meno rigida, in genere ignora le differenze tra maiuscole e minuscole, punteggiatura e spazi. -
f1_score: media armonica di precisione e richiamo, che misura la sovrapposizione di parole tra le risposte previste e quelle di riferimento. -
f1_score_quasi: simile a f1_score, ma con una corrispondenza meno rigida, utilizza un confronto di testo normalizzato che ignora differenze minori. -
bleu: misura la precisione delle corrispondenze in n-grammi tra il testo generato e quello di riferimento, comunemente utilizzate nella valutazione delle traduzioni.
-
-
Inoltre
mm_llm_judge, porta il tuollm_judgebenchmark personale per il set di dati, restituisci le seguenti metriche:-
a_scores: numero di vittorie perresponse_Anei passaggi di valutazione avanti e indietro. -
a_scores_stderr: errore standard diresponse_A scoresnei giudizi a coppie. -
b_scores: numero di vittorie perresponse_Bnei passaggi di valutazione avanti e indietro. -
b_scores_stderr: errore standard diresponse_B scoresnei giudizi a coppie. -
ties: numero di giudizi in cuiresponse_Aeresponse_Bsono valutati in modo uguale. -
ties_stderr: errore standard di ties nei giudizi a coppie. -
inference_error: numero di giudizi che non è stato possibile valutare correttamente. -
inference_error_stderr: errore standard degli errori di inferenza nei i giudizi. -
score: punteggio aggregato basato sulle vittorie nei passaggi avanti e indietro perresponse_B. -
score_stderr: errore standard del punteggio aggregato nei giudizi a coppie. -
winrate: la probabilità che response_B venga preferito rispetto a response_a calcolato utilizzando la probabilità di Bradley-Terry. -
lower_rate: limite inferiore (percentile 2,5) del tasso di successo stimato derivante dal campionamento bootstrap.
-
-
-
Configurazione inference
Di seguito è riportata una configurazione di tipo inference con una spiegazione dei parametri coinvolti. Tutti i parametri sono opzionali:
inference: max_new_tokens: 200 top_k: -1 top_p: 1.0 temperature: 0 top_logprobs: 10 reasoning_effort: null # options: low/high to enable reasoning or null to disable reasoning
-
max_new_tokens: il numero massimo di token da generare. Deve essere un numero intero. -
top_k: il numero di token con la più alta probabilità da considerare. Deve essere un numero intero. -
top_p: la soglia di probabilità cumulativa per il campionamento tramite token. Deve essere un valore decimale compreso tra 0,0 e 1,0, entrambi inclusi. -
temperature: casualità nella selezione dei token. Valori più grandi introducono una maggiore casualità. Usa 0 per rendere deterministici i risultati. Deve essere un valore decimale minimo pari a 0. -
top_logprobs: Il numero di migliori logprobs da restituire nella risposta di inferenza. Questo valore deve essere un numero intero compreso tra 0 e 20. I logprobs contengono i token di output considerati e le probabilità di registro di ogni token di output restituito nel contenuto del messaggio. -
reasoning_effort: controlla il comportamento di ragionamento per modelli in grado di ragionare. Impostareasoning_effortsolo quandomodel_typespecifica un modello in grado di ragionare (attualmente).amazon.nova-2-lite-v1:0:256kLe opzioni disponibili sononull(valore predefinito se non impostato; disabilita il ragionamento), o.lowhigh
Per humaneval è consigliabile la configurazione inference seguente:
inference: top_k: 1 max_new_tokens: 1600 temperature: 0.0
MLFlow configurazione
Di seguito è riportata una MLFlow configurazione e una spiegazione dei parametri coinvolti. Tutti i parametri sono opzionali:
run: mlflow_tracking_uri: "" mlflow_experiment_name: "" mlflow_run_name: ""
-
mlflow_tracking_uri: Facoltativo) La posizione del server di MLflow tracciamento (necessaria solo su SMHP) -
mlflow_experiment_name: (Facoltativo) Nome dell'esperimento per raggruppare le esecuzioni ML correlate -
mlflow_run_name: (Facoltativo) Nome personalizzato per un corso di formazione specifico all'interno di un esperimento