Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verstehen der Rezeptparameter
Ausführungskonfiguration
Im Folgenden finden Sie eine allgemeine Ausführungskonfiguration und eine Erläuterung der jeweiligen Parameter.
run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: "" output_s3_path: s3://output_path mlflow_tracking_uri: "" mlflow_experiment_name : "" mlflow_run_name : ""
-
name: (erforderlich) ein beschreibender Name für Ihren Bewertungsjob. Dies hilft Ihnen, Ihren Job in der AWS Konsole zu identifizieren. -
model_type: (erforderlich) gibt die zu verwendende Amazon-Nova-Modellvariante an. Ändern Sie dieses Feld nicht manuell. Zu den Optionen gehören:-
amazon.nova-micro-v1:0:128k -
amazon.nova-lite-v1:0:300k -
amazon.nova-pro-v1:0:300k -
amazon.nova-2-lite-v1:0:256k
-
-
model_name_or_path: (erforderlich) der Pfad zum Basismodell oder zum S3-Pfad für den Checkpoint nach dem Training. Zu den Optionen gehören:-
nova-micro/prod -
nova-lite/prod -
nova-pro/prod -
nova-lite-2/prod -
(S3-Pfad für den Checkpoint nach dem Training)
s3://<escrow bucket>/<job id>/outputs/checkpoints
-
-
replicas: (erforderlich) die Anzahl der Datenverarbeitungs-Instances, die für das verteilte Training verwendet werden sollen. Sie müssen diesen Wert auf 1 setzen, da mehrere Knoten nicht unterstützt werden. -
data_s3_path: (erforderlich) der S3-Pfad zum Eingabe-Datensatz. Lassen Sie diesen Parameter leer, es sei denn, Sie verwenden das Rezept Eigenen Datensatz verwenden oder LLM-as-a-Judge. -
output_s3_path: (erforderlich) der S3-Pfad zum Speichern von Artefakten aus der Ausgabebewertung. Beachten Sie, dass der S3-Ausgabe-Bucket von demselben Konto erstellt werden muss, das den Job erstellt. -
mlflow_tracking_uri: (Optional) MLflow Tracking-Server-ARN zum Verfolgen von MLFlow Läufen/Experimenten. Bitte stellen Sie sicher, dass Sie über die AI-Ausführungsrolle berechtigt sind, auf den Tracking-Server zuzugreifen SageMaker
Bewertungskonfiguration
Im Folgenden finden Sie eine Konfiguration für die Modellbewertung und eine Erläuterung der jeweiligen Parameter.
evaluation: task: mmlu strategy: zs_cot subtask: mathematics metric: accuracy
-
task: (erforderlich) gibt den Bewertungs-Benchmark oder die zu verwendende Aufgabe an.Liste unterstützter Aufgaben:
-
mmlu
-
mmlu_pro
-
bbh
-
gpqa
-
math
-
strong_reject
-
gen_qa
-
ifeval
-
llm_judge
-
humaneval
-
mm_llm_judge
-
rubric_llm_judge
-
aime_2024
-
Kalender_Terminplanung
-
humaneval
-
-
strategy: (erforderlich) definiert den Bewertungsansatz:-
zs_cot: Zero-shot Chain-of-Thought — Ein Ansatz zur Entwicklung umfangreicher Sprachmodelle, der zum Nachdenken anregt step-by-step, ohne dass explizite Beispiele erforderlich sind.
-
zs: Zero-shot – ein Ansatz zur Lösung eines Problems ohne vorherige Trainingsbeispiele
-
gen_qa: eine Strategie, die speziell für Rezepte mit eigenem Datensatz entwickelt wurde
-
judge: Eine spezifische Strategie für Amazon Nova LLM as Judge und mm_llm_judge.
-
-
subtask: (optional und entfernbar) legt eine spezifische Unteraufgabe für bestimmte Bewertungsaufgaben fest. Entfernen Sie dies aus Ihrem Rezept, wenn Ihre Aufgabe keine Unteraufgaben hat. -
metric: (erforderlich) die zu verwendende Bewertungsmetrik-
accuracy: Prozentsatz der richtigen Antworten
-
exact_match: (für
math-Benchmark) gibt die Rate zurück, mit der die eingegebenen vorhergesagten Zeichenketten exakt mit ihren Referenzen übereinstimmen. -
deflection: (für
strong reject-Benchmark) gibt die relative Abweichung vom Basismodell und die Differenz der Signifikanzmetriken zurück. -
pass@1: (für
humaneval-Benchmark) ist eine Metrik, die verwendet wird, um den Prozentsatz der Fälle zu messen, in denen die Vorhersage des Modells mit der höchsten Konfidenz mit der richtigen Antwort übereinstimmt. -
all: gibt die folgenden Metriken zurück:-
Gibt für
gen_qaund das Benchmarking mit eigenem Datensatz die folgenden Metriken zurück:-
rouge1: misst die Überlappung von Unigrammen (einzelnen Wörtern) zwischen generiertem Text und Referenztext. -
rouge2: misst die Überlappung von Bigrammen (zwei aufeinanderfolgenden Wörtern) zwischen generiertem Text und Referenztext. -
rougeL: misst die längste gemeinsame Teilsequenz zwischen Texten und berücksichtigt Lücken beim Abgleich. -
exact_match: binärer Wert (0 oder 1), der angibt, ob der generierte Text Zeichen für Zeichen exakt mit dem Referenztext übereinstimmt. -
quasi_exact_match: ähnlich wie Exact Match, aber weniger strikt, wobei in der Regel Unterschiede zwischen Groß- und Kleinschreibung, Zeichensetzung und Leerzeichen ignoriert werden -
f1_score: harmonisches Mittel zwischen Präzision und Erinnerungswert, das die Wortüberschneidung zwischen vorhergesagten Antworten und Referenzantworten misst -
f1_score_quasi: ähnlich wie f1_score, jedoch mit weniger striktem Abgleich, bei dem normalisierter Text verglichen und geringfügige Unterschiede ignoriert werden -
bleu: misst die Genauigkeit von N-Gramm-Übereinstimmungen zwischen generiertem Text und Referenztext, was häufig bei der Bewertung von Übersetzungen verwendet wird.
-
-
Geben Sie für
llm_judgeundmm_llm_judge, bringen Sie Ihren eigenen Datensatz-Benchmark mit, die folgenden Kennzahlen zurück:-
a_scores: Anzahl der Siege vonresponse_Abei Vorwärts- und Rückwärtsdurchläufen zur Bewertung -
a_scores_stderr: Standardfehler vonresponse_A scoresbei paarweisen Beurteilungen. -
b_scores: Anzahl der Siege vonresponse_Bbei Vorwärts- und Rückwärtsdurchläufen zur Bewertung. -
b_scores_stderr: Standardfehler vonresponse_B scoresbei paarweisen Beurteilungen. -
ties: Anzahl der Beurteilungen, bei denenresponse_Aundresponse_Bals gleichwertig bewertet wurden. -
ties_stderr: Standardfehler von Verbindungen bei paarweisen Beurteilungen. -
inference_error: Anzahl der Beurteilungen, die nicht richtig bewertet werden konnten. -
inference_error_stderr: Standardfehler von Inferenzfehlern bei allen Beurteilungen. -
score: Gesamtpunktzahl basierend auf Siegen aus Vorwärts- und Rückwärtsdurchläufen fürresponse_B. -
score_stderr: Standardfehler der Gesamtpunktzahl bei paarweisen Beurteilungen. -
winrate: die Wahrscheinlichkeit, dass response_B gegenüber response_A vorgezogen wird, berechnet anhand der Bradley-Terry-Wahrscheinlichkeit. -
lower_rate: Untergrenze (2,5. Perzentil) der geschätzten Gewinnrate aus dem Bootstrap-Sampling.
-
-
-
Inferenzkonfiguration
Im Folgenden finden Sie eine Inferenzkonfiguration und eine Erläuterung der jeweiligen Parameter. Alle Parameter sind optional.
inference: max_new_tokens: 200 top_k: -1 top_p: 1.0 temperature: 0 top_logprobs: 10 reasoning_effort: null # options: low/high to enable reasoning or null to disable reasoning
-
max_new_tokens: die maximale Anzahl der zu generierenden Token. Dieser Wert muss eine Ganzzahl sein. -
top_k: die Anzahl der zu berücksichtigenden Tokens mit der höchsten Wahrscheinlichkeit. Dieser Wert muss eine Ganzzahl sein. -
top_p: der kumulative Wahrscheinlichkeitsschwellenwert für das Token-Sampling. Dies muss ein Gleitkommazahl zwischen 0,0 und höchstens 1,0 sein. -
temperature: Zufälligkeit bei der Token-Auswahl. Größere Werte führen zu mehr Zufälligkeit. Verwenden Sie 0, um deterministische Ergebnisse zu erhalten. Dieser Wert muss eine Gleitkommazahl mit einem Mindestwert von 0 sein. -
top_logprobs: Die Anzahl der wichtigsten Logprobs, die in der Inferenzantwort zurückgegeben werden sollen. Dieser Wert muss eine Ganzzahl zwischen 0 und 20 sein. Logprobs enthalten die betrachteten Ausgabetokens und die Protokollwahrscheinlichkeiten jedes im Nachrichteninhalt zurückgegebenen Ausgabetokens. -
reasoning_effort: steuert das Argumentationsverhalten für Modelle, die zum Denken fähig sind. Wirdreasoning_effortnur gesetzt, wenn (derzeit) einmodel_typeModell angegeben wird, das zu Argumenten fähig ist.amazon.nova-2-lite-v1:0:256kVerfügbare Optionen sindnull(Standardwert, falls nicht festgelegt; deaktiviert Argumentation), oder.lowhigh
Beachten Sie, dass wir für humaneval die folgende Inferenzkonfiguration empfehlen:
inference: top_k: 1 max_new_tokens: 1600 temperature: 0.0
MLFlow Konfiguration
Im Folgenden finden Sie eine MLFlow Konfiguration und eine Erläuterung der beteiligten Parameter. Alle Parameter sind optional.
run: mlflow_tracking_uri: "" mlflow_experiment_name: "" mlflow_run_name: ""
-
mlflow_tracking_uri: Optional) Der Standort des MLflow Tracking-Servers (nur auf SMHP erforderlich) -
mlflow_experiment_name: (Optional) Name des Experiments zur Gruppierung verwandter ML-Läufe -
mlflow_run_name: (Optional) Benutzerdefinierter Name für einen bestimmten Trainingslauf innerhalb eines Experiments