Anpassung von Amazon Nova auf Amazon SageMaker HyperPod
Sie können Amazon-Nova-Modelle mithilfe von Amazon-Nova-Rezepten anpassen und sie auf Amazon SageMaker HyperPod trainieren. Ein Rezept ist eine YAML-Konfigurationsdatei, die SageMaker AI Informationen darüber liefert, wie Ihr Modellanpassungsjob ausgeführt wird.
Amazon SageMaker HyperPod bietet Hochleistungsdatenverarbeitung mit optimierten GPU-Instances und Speicher von Amazon FSx für Lustre, robuste Überwachung durch Integration mit Tools wie TensorBoard, flexibles Checkpoint-Management für iterative Verbesserungen, nahtlose Bereitstellung auf Amazon Bedrock für Inferenz sowie effizientes, skalierbares, verteiltes Training mit mehreren Knoten. All dies bietet Organisationen eine sichere, leistungsstarke und flexible Umgebung, in der sie Nova-Modelle an ihre spezifischen Geschäftsanforderungen anpassen können.
Durch die Anpassung von Amazon Nova an Amazon SageMaker HyperPod werden Modellartefakte, einschließlich Modell-Checkpoints, in einem serviceverwalteten Amazon-S3-Bucket gespeichert. Artefakte im serviceverwalteten Bucket werden mit von SageMaker verwalteten AWS KMS-Schlüsseln verschlüsselt. Serviceverwaltete Amazon-S3-Buckets unterstützen derzeit keine Datenverschlüsselung mit kundenverwalteten KMS-Schlüsseln. Sie können diesen Checkpoint-Standort für Bewertungsjobs oder Amazon-Bedrock-Inferenz verwenden.
Standardpreise können für Datenverarbeitungs-Instances, Amazon-S3-Speicher und FSx für Lustre gelten. Preisinformationen finden Sie unter SageMaker HyperPod – Preise
Anforderungen an die Datenverarbeitung
In den folgenden Tabellen sind die Datenverarbeitungsanforderungen für das SageMaker-HyperPod-Training zusammengefasst.
Modell |
Länge der Reihenfolge |
Knoten |
Instance |
Accelerator |
|---|---|---|---|---|
Amazon Nova Micro |
8,192 |
8 |
ml.p5.48xlarge |
GPU H100 |
Amazon Nova Lite |
8,192 |
16 |
ml.p5.48xlarge |
GPU H100 |
Amazon Nova Pro |
8,192 |
24 |
ml.p5.48xlarge |
GPU H100 |
Modell |
Länge der Reihenfolge |
Anzahl der Knoten |
Instance |
Accelerator |
|---|---|---|---|---|
Direct Preference Optimization (vollständig) |
32.768 |
2, 4 oder 6 |
ml.p5.48xlarge |
GPU H100 |
Direct Preference Optimization (LoRA) |
32.768 |
2, 4 oder 6 |
ml.p5.48xlarge |
GPU H100 |
Modell |
Länge der Reihenfolge |
Anzahl der Knoten |
Instance |
Accelerator |
|---|---|---|---|---|
Überwachte Optimierung (LoRA) |
65 536 |
2 |
ml.p5.48xlarge |
GPU H100 |
Überwachte Optimierung (vollständig) |
65 536 |
2 |
ml.p5.48xlarge |
GPU H100 |
Überwachte Optimierung (LoRA) |
32.768 |
4 |
ml.p5.48xlarge |
GPU H100 |
Überwachte Optimierung (vollständig) |
65 536 |
4 |
ml.p5.48xlarge |
GPU H100 |
Überwachte Optimierung (LoRA) |
65 536 |
6 |
ml.p5.48xlarge |
GPU H100 |
Überwachte Optimierung (vollständig) |
65 536 |
6 |
ml.p5.48xlarge |
GPU H100 |
Modell |
Knoten |
Instance |
|---|---|---|
Modelldestillation nach dem Training |
1 |
ml.r5.24xlarge |
Modell |
Länge der Reihenfolge |
Knoten |
Instance |
Accelerator |
|---|---|---|---|---|
Allgemeines Text-Benchmark-Rezept |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Benchmark-Rezept mit eigenem Datensatz (gen_qa) |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Rezept für Amazon Nova LLM-as-a-Judge |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Standard-Text-Benchmarks |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Benutzerdefinierte Datensatzbewertung |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Multimodale Benchmarks |
8,192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Modell |
Anzahl der Instances im kritischen Modell |
Anzahl der Instances im Belohnungsmodell |
Anzahl der Instances im Ankermodell |
Akteurtraining |
Akteurgenerierung |
Anzahl der Instances |
Gesamtstunden pro Lauf |
P5-Stunden |
Instance-Typ |
|---|---|---|---|---|---|---|---|---|---|
Amazon Nova Micro |
1 |
1 |
1 |
2 |
2 |
7 |
8 |
56 |
ml.p5.48xlarge |
Amazon Nova Lite |
1 |
1 |
1 |
2 |
2 |
7 |
16 |
112 |
ml.p5.48xlarge |
Amazon Nova Pro |
1 |
1 |
1 |
6 |
2 |
11 |
26 |
260 |
ml.p5.48xlarge |