Parallelität hybrider fragmentierter Daten

Parallelität fragmentierter Daten ist eine verteilte Trainingstechnik, die Speicher spart und den Zustand eines Modells (Modellparameter, Steigungen und Optimierer-Zustände) auf mehrere Geräte aufteilt. Auf diese Weise können Sie mithilfe des freigewordenen GPU-Speichers ein größeres Modell aufnehmen oder die Batchgröße erhöhen. Die SMP-Bibliothek bietet die Möglichkeit, Sharded Data Parallelität mit Fully Sharded Data Parallel (FSDP) auszuführen. PyTorch PyTorch FSDP verwendet standardmäßig Shards für den gesamten verwendeten Satz. GPUs In SMP v2 bietet die Bibliothek diese Shard-Datenparallelität zusätzlich zu PyTorch FSDP, indem sie PyTorch Hybrid Sharding (HYBRID_SHARD) erweitert. Dabei handelt es sich um eine der Sharding-Strategien von FSDP:,,,. PyTorch FULL_SHARD SHARD_GRAD_OP HYBRID_SHARD _HYBRID_SHARD_ZERO2 Die Erweiterung des Hybrid-Shardings auf diese Weise hilft bei der Implementierung, scale-aware-sharding wie im Blog Near-linear scaling of gigantic-model training on for FSDP beschrieben. AWS PyTorch

Die SMP-Bibliothek ermöglicht eine einfache Bedienung HYBRID_SHARD und ermöglicht eine beliebige konfigurierbare Anzahl von _HYBRID_SHARD_ZERO2 Anwendungen. Sie erweitert das native PyTorch FSDP GPUs, das Sharding auf einem einzelnen Knoten () oder auf allen () unterstützt. HYBRID_SHARD GPUs FULL_SHARD PyTorch FSDP-Aufrufe können unverändert bleiben, und Sie müssen nur das hybrid_shard_degree Argument zur SMP-Konfiguration hinzufügen, wie im folgenden Codebeispiel gezeigt. Sie müssen den Wert des sharding_strategy Arguments im PyTorch FSDP-Wrapper, der Ihr Modell umgibt, nicht ändern. PyTorch Sie können ShardingStrategy.HYBRID_SHARD als Wert übergeben. Alternativ überschreibt die SMP-Bibliothek die Strategie im Skript und setzt sie auf ShardingStrategy.HYBRID_SHARD, wenn Sie für den hybrid_shard_degree-Parameter einen Wert gleich oder größer als 2 angeben.

Die folgenden Codefragmente zeigen, wie Sie das SMP-Initialisierungsmodul torch.sagemaker.init() zu Ihrem Trainingsskript hinzufügen und das SMP-Konfigurationswörterbuch im JSON-Format für den Trainingsjob-Launcher einrichten. Dabei folgen Sie dem in Verwendung der SageMaker-Modellparallelitätsbibliothek v2 beschriebenen zweistufigen Prozess. Sie müssen keine Änderungen an Ihrem PyTorch Modell oder Ihrer PyTorch FSDP-Konfiguration vornehmen. Weitere Informationen zum Parameter hybrid_shard_degree erhalten Sie unter Konfigurationsparameter für die Kernfunktionen von SMP v2.

SMP-Konfigurationswörterbuch


{ "hybrid_shard_degree": 16 }

Im Trainingsskript


import torch.sagemaker as tsm
tsm.init()

# Set up a PyTorch model
model = ...

# Wrap the PyTorch model using the PyTorch FSDP module
model = FSDP(
    model,
    ...
)

# Optimizer needs to be created after FSDP wrapper
optimizer = ...

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kernfunktionen von SMP v2

Expertenparallelität