Verstehen der Rezeptparameter

Ausführungskonfiguration

Im Folgenden finden Sie eine allgemeine Ausführungskonfiguration und eine Erläuterung der jeweiligen Parameter.


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""
  output_s3_path: s3://output_path
  mlflow_tracking_uri: "" 
  mlflow_experiment_name : "" 
  mlflow_run_name : ""

name: (erforderlich) ein beschreibender Name für Ihren Bewertungsjob. Dies hilft Ihnen, Ihren Job in der AWS Konsole zu identifizieren.
model_type: (erforderlich) gibt die zu verwendende Amazon-Nova-Modellvariante an. Ändern Sie dieses Feld nicht manuell. Zu den Optionen gehören:
- amazon.nova-micro-v1:0:128k
- amazon.nova-lite-v1:0:300k
- amazon.nova-pro-v1:0:300k
- amazon.nova-2-lite-v1:0:256k
model_name_or_path: (erforderlich) der Pfad zum Basismodell oder zum S3-Pfad für den Checkpoint nach dem Training. Zu den Optionen gehören:
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- nova-lite-2/prod
- (S3-Pfad für den Checkpoint nach dem Training) s3://<escrow bucket>/<job id>/outputs/checkpoints
replicas: (erforderlich) die Anzahl der Datenverarbeitungs-Instances, die für das verteilte Training verwendet werden sollen. Sie müssen diesen Wert auf 1 setzen, da mehrere Knoten nicht unterstützt werden.
data_s3_path: (erforderlich) der S3-Pfad zum Eingabe-Datensatz. Lassen Sie diesen Parameter leer, es sei denn, Sie verwenden das Rezept Eigenen Datensatz verwenden oder LLM-as-a-Judge.
output_s3_path: (erforderlich) der S3-Pfad zum Speichern von Artefakten aus der Ausgabebewertung. Beachten Sie, dass der S3-Ausgabe-Bucket von demselben Konto erstellt werden muss, das den Job erstellt.
mlflow_tracking_uri: (Optional) MLflow Tracking-Server-ARN zum Verfolgen von MLFlow Läufen/Experimenten. Bitte stellen Sie sicher, dass Sie über die AI-Ausführungsrolle berechtigt sind, auf den Tracking-Server zuzugreifen SageMaker

Bewertungskonfiguration

Im Folgenden finden Sie eine Konfiguration für die Modellbewertung und eine Erläuterung der jeweiligen Parameter.


evaluation:
  task: mmlu
  strategy: zs_cot 
  subtask: mathematics
  metric: accuracy

task: (erforderlich) gibt den Bewertungs-Benchmark oder die zu verwendende Aufgabe an.

Liste unterstützter Aufgaben:
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_reject
- gen_qa
- ifeval
- llm_judge
- humaneval
- mm_llm_judge
- rubric_llm_judge
- aime_2024
- Kalender_Terminplanung
- humaneval
strategy: (erforderlich) definiert den Bewertungsansatz:
- zs_cot: Zero-shot Chain-of-Thought — Ein Ansatz zur Entwicklung umfangreicher Sprachmodelle, der zum Nachdenken anregt step-by-step, ohne dass explizite Beispiele erforderlich sind.
- zs: Zero-shot – ein Ansatz zur Lösung eines Problems ohne vorherige Trainingsbeispiele
- gen_qa: eine Strategie, die speziell für Rezepte mit eigenem Datensatz entwickelt wurde
- judge: Eine spezifische Strategie für Amazon Nova LLM as Judge und mm_llm_judge.
subtask: (optional und entfernbar) legt eine spezifische Unteraufgabe für bestimmte Bewertungsaufgaben fest. Entfernen Sie dies aus Ihrem Rezept, wenn Ihre Aufgabe keine Unteraufgaben hat.
metric: (erforderlich) die zu verwendende Bewertungsmetrik
- accuracy: Prozentsatz der richtigen Antworten
- exact_match: (für math-Benchmark) gibt die Rate zurück, mit der die eingegebenen vorhergesagten Zeichenketten exakt mit ihren Referenzen übereinstimmen.
- deflection: (für strong reject-Benchmark) gibt die relative Abweichung vom Basismodell und die Differenz der Signifikanzmetriken zurück.
- pass@1: (für humaneval-Benchmark) ist eine Metrik, die verwendet wird, um den Prozentsatz der Fälle zu messen, in denen die Vorhersage des Modells mit der höchsten Konfidenz mit der richtigen Antwort übereinstimmt.
- all: gibt die folgenden Metriken zurück:
  - Gibt für gen_qa und das Benchmarking mit eigenem Datensatz die folgenden Metriken zurück:
    
    rouge1: misst die Überlappung von Unigrammen (einzelnen Wörtern) zwischen generiertem Text und Referenztext.
    
    rouge2: misst die Überlappung von Bigrammen (zwei aufeinanderfolgenden Wörtern) zwischen generiertem Text und Referenztext.
    
    rougeL: misst die längste gemeinsame Teilsequenz zwischen Texten und berücksichtigt Lücken beim Abgleich.
    
    exact_match: binärer Wert (0 oder 1), der angibt, ob der generierte Text Zeichen für Zeichen exakt mit dem Referenztext übereinstimmt.
    
    quasi_exact_match: ähnlich wie Exact Match, aber weniger strikt, wobei in der Regel Unterschiede zwischen Groß- und Kleinschreibung, Zeichensetzung und Leerzeichen ignoriert werden
    
    f1_score: harmonisches Mittel zwischen Präzision und Erinnerungswert, das die Wortüberschneidung zwischen vorhergesagten Antworten und Referenzantworten misst
    
    f1_score_quasi: ähnlich wie f1_score, jedoch mit weniger striktem Abgleich, bei dem normalisierter Text verglichen und geringfügige Unterschiede ignoriert werden
    
    bleu: misst die Genauigkeit von N-Gramm-Übereinstimmungen zwischen generiertem Text und Referenztext, was häufig bei der Bewertung von Übersetzungen verwendet wird.
  - Geben Sie für llm_judge undmm_llm_judge, bringen Sie Ihren eigenen Datensatz-Benchmark mit, die folgenden Kennzahlen zurück:
    
    a_scores: Anzahl der Siege von response_A bei Vorwärts- und Rückwärtsdurchläufen zur Bewertung
    
    a_scores_stderr: Standardfehler von response_A scores bei paarweisen Beurteilungen.
    
    b_scores: Anzahl der Siege von response_B bei Vorwärts- und Rückwärtsdurchläufen zur Bewertung.
    
    b_scores_stderr: Standardfehler von response_B scores bei paarweisen Beurteilungen.
    
    ties: Anzahl der Beurteilungen, bei denen response_A und response_B als gleichwertig bewertet wurden.
    
    ties_stderr: Standardfehler von Verbindungen bei paarweisen Beurteilungen.
    
    inference_error: Anzahl der Beurteilungen, die nicht richtig bewertet werden konnten.
    
    inference_error_stderr: Standardfehler von Inferenzfehlern bei allen Beurteilungen.
    
    score: Gesamtpunktzahl basierend auf Siegen aus Vorwärts- und Rückwärtsdurchläufen für response_B.
    
    score_stderr: Standardfehler der Gesamtpunktzahl bei paarweisen Beurteilungen.
    
    winrate: die Wahrscheinlichkeit, dass response_B gegenüber response_A vorgezogen wird, berechnet anhand der Bradley-Terry-Wahrscheinlichkeit.
    
    lower_rate: Untergrenze (2,5. Perzentil) der geschätzten Gewinnrate aus dem Bootstrap-Sampling.

Inferenzkonfiguration

Im Folgenden finden Sie eine Inferenzkonfiguration und eine Erläuterung der jeweiligen Parameter. Alle Parameter sind optional.


inference:
  max_new_tokens: 200 
  top_k: -1 
  top_p: 1.0 
  temperature: 0
  top_logprobs: 10
  reasoning_effort: null  # options: low/high to enable reasoning or null to disable reasoning

max_new_tokens: die maximale Anzahl der zu generierenden Token. Dieser Wert muss eine Ganzzahl sein.
top_k: die Anzahl der zu berücksichtigenden Tokens mit der höchsten Wahrscheinlichkeit. Dieser Wert muss eine Ganzzahl sein.
top_p: der kumulative Wahrscheinlichkeitsschwellenwert für das Token-Sampling. Dies muss ein Gleitkommazahl zwischen 0,0 und höchstens 1,0 sein.
temperature: Zufälligkeit bei der Token-Auswahl. Größere Werte führen zu mehr Zufälligkeit. Verwenden Sie 0, um deterministische Ergebnisse zu erhalten. Dieser Wert muss eine Gleitkommazahl mit einem Mindestwert von 0 sein.
top_logprobs: Die Anzahl der wichtigsten Logprobs, die in der Inferenzantwort zurückgegeben werden sollen. Dieser Wert muss eine Ganzzahl zwischen 0 und 20 sein. Logprobs enthalten die betrachteten Ausgabetokens und die Protokollwahrscheinlichkeiten jedes im Nachrichteninhalt zurückgegebenen Ausgabetokens.
reasoning_effort: steuert das Argumentationsverhalten für Modelle, die zum Denken fähig sind. Wird reasoning_effort nur gesetzt, wenn (derzeit) ein model_type Modell angegeben wird, das zu Argumenten fähig ist. amazon.nova-2-lite-v1:0:256k Verfügbare Optionen sind null (Standardwert, falls nicht festgelegt; deaktiviert Argumentation), oder. low high

Beachten Sie, dass wir für humaneval die folgende Inferenzkonfiguration empfehlen:


inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0

MLFlow Konfiguration

Im Folgenden finden Sie eine MLFlow Konfiguration und eine Erläuterung der beteiligten Parameter. Alle Parameter sind optional.


run:
  mlflow_tracking_uri: ""
  mlflow_experiment_name: ""
  mlflow_run_name: ""

mlflow_tracking_uri: Optional) Der Standort des MLflow Tracking-Servers (nur auf SMHP erforderlich)
mlflow_experiment_name: (Optional) Name des Experiments zur Gruppierung verwandter ML-Läufe
mlflow_run_name: (Optional) Benutzerdefinierter Name für einen bestimmten Trainingslauf innerhalb eines Experiments

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verfügbare Benchmark-Aufgaben

Beispiele für Bewertungsrezepte