Anpassung von Amazon Nova auf Amazon SageMaker HyperPod - Amazon SageMaker AI

Anpassung von Amazon Nova auf Amazon SageMaker HyperPod

Sie können Amazon-Nova-Modelle mithilfe von Amazon-Nova-Rezepten anpassen und sie auf Amazon SageMaker HyperPod trainieren. Ein Rezept ist eine YAML-Konfigurationsdatei, die SageMaker AI Informationen darüber liefert, wie Ihr Modellanpassungsjob ausgeführt wird.

Amazon SageMaker HyperPod bietet Hochleistungsdatenverarbeitung mit optimierten GPU-Instances und Speicher von Amazon FSx für Lustre, robuste Überwachung durch Integration mit Tools wie TensorBoard, flexibles Checkpoint-Management für iterative Verbesserungen, nahtlose Bereitstellung auf Amazon Bedrock für Inferenz sowie effizientes, skalierbares, verteiltes Training mit mehreren Knoten. All dies bietet Organisationen eine sichere, leistungsstarke und flexible Umgebung, in der sie Nova-Modelle an ihre spezifischen Geschäftsanforderungen anpassen können.

Durch die Anpassung von Amazon Nova an Amazon SageMaker HyperPod werden Modellartefakte, einschließlich Modell-Checkpoints, in einem serviceverwalteten Amazon-S3-Bucket gespeichert. Artefakte im serviceverwalteten Bucket werden mit von SageMaker verwalteten AWS KMS-Schlüsseln verschlüsselt. Serviceverwaltete Amazon-S3-Buckets unterstützen derzeit keine Datenverschlüsselung mit kundenverwalteten KMS-Schlüsseln. Sie können diesen Checkpoint-Standort für Bewertungsjobs oder Amazon-Bedrock-Inferenz verwenden.

Standardpreise können für Datenverarbeitungs-Instances, Amazon-S3-Speicher und FSx für Lustre gelten. Preisinformationen finden Sie unter SageMaker HyperPod – Preise, Amazon S3 – Preise und FSx für Lustre – Preise.

Anforderungen an die Datenverarbeitung

In den folgenden Tabellen sind die Datenverarbeitungsanforderungen für das SageMaker-HyperPod-Training zusammengefasst.

Vortraining

Modell

Länge der Reihenfolge

Knoten

Instance

Accelerator

Amazon Nova Micro

8,192

8

ml.p5.48xlarge

GPU H100

Amazon Nova Lite

8,192

16

ml.p5.48xlarge

GPU H100

Amazon Nova Pro

8,192

24

ml.p5.48xlarge

GPU H100

Direct Preference Optimization (DPO)

Modell

Länge der Reihenfolge

Anzahl der Knoten

Instance

Accelerator

Direct Preference Optimization (vollständig)

32.768

2, 4 oder 6

ml.p5.48xlarge

GPU H100

Direct Preference Optimization (LoRA)

32.768

2, 4 oder 6

ml.p5.48xlarge

GPU H100

Feinabstimmung

Modell

Länge der Reihenfolge

Anzahl der Knoten

Instance

Accelerator

Überwachte Optimierung (LoRA)

65 536

2

ml.p5.48xlarge

GPU H100

Überwachte Optimierung (vollständig)

65 536

2

ml.p5.48xlarge

GPU H100

Überwachte Optimierung (LoRA)

32.768

4

ml.p5.48xlarge

GPU H100

Überwachte Optimierung (vollständig)

65 536

4

ml.p5.48xlarge

GPU H100

Überwachte Optimierung (LoRA)

65 536

6

ml.p5.48xlarge

GPU H100

Überwachte Optimierung (vollständig)

65 536

6

ml.p5.48xlarge

GPU H100

Destillation

Modell

Knoten

Instance

Modelldestillation nach dem Training

1

ml.r5.24xlarge

Bewertung

Modell

Länge der Reihenfolge

Knoten

Instance

Accelerator

Allgemeines Text-Benchmark-Rezept

8,192

1

ml.p5.48xlarge

GPU H100

Benchmark-Rezept mit eigenem Datensatz (gen_qa)

8,192

1

ml.p5.48xlarge

GPU H100

Rezept für Amazon Nova LLM-as-a-Judge

8,192

1

ml.p5.48xlarge

GPU H100

Standard-Text-Benchmarks

8,192

1

ml.p5.48xlarge

GPU H100

Benutzerdefinierte Datensatzbewertung

8,192

1

ml.p5.48xlarge

GPU H100

Multimodale Benchmarks

8,192

1

ml.p5.48xlarge

GPU H100

Proximal Policy Optimization

Modell

Anzahl der Instances im kritischen Modell

Anzahl der Instances im Belohnungsmodell

Anzahl der Instances im Ankermodell

Akteurtraining

Akteurgenerierung

Anzahl der Instances

Gesamtstunden pro Lauf

P5-Stunden

Instance-Typ

Amazon Nova Micro

1

1

1

2

2

7

8

56

ml.p5.48xlarge

Amazon Nova Lite

1

1

1

2

2

7

16

112

ml.p5.48xlarge

Amazon Nova Pro

1

1

1

6

2

11

26

260

ml.p5.48xlarge