Führen Sie verteilte Trainings mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) durch
Die SageMaker-AI-Bibliothek für verteilte Datenparallelität (SMDDP) erweitert die Trainingsfunktionen von SageMaker auf Deep-Learning-Modellen mit nahezu linearer Skalierungseffizienz durch Implementierungen kollektiver Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.
Beim Training großer Machine-Learning-Modelle (ML), wie z. B. große Sprachmodelle (LLM) und Diffusionsmodelle, auf einem riesigen Trainingsdatensatz verwenden ML-Praktiker Cluster von Beschleunigern und verteilte Trainingstechniken, um die Zeit für das Training zu reduzieren oder Speicherbeschränkungen für Modelle zu lösen, die nicht in jeden GPU-Speicher passen. ML-Praktiker beginnen häufig mit mehreren Beschleunigern auf einer einzigen Instance und skalieren dann auf Cluster von Instances, wenn ihre Workload-Anforderungen steigen. Mit zunehmender Clustergröße nimmt auch der Kommunikationsaufwand zwischen mehreren Knoten zu, was zu einem Rückgang der gesamten Rechenleistung führt.
Um solchen Aufwands- und Speicherproblemen zu begegnen, bietet die SMDDP-Bibliothek Folgendes.
-
Die SMDDP-Bibliothek optimiert Trainingsjobs für die AWS-Netzwerkinfrastruktur und die ML-Instance-Topologie von Amazon SageMaker AI.
-
Die SMDDP-Bibliothek verbessert die Kommunikation zwischen Knoten durch Implementierungen von kollektiven
AllReduce- undAllGather-Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.
Weitere Informationen dazu, was die SMDDP-Bibliothek bietet, finden Sie unter Einführung in die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism).
Weitere Informationen zum Training mit der Modellparallelitätsstrategie von SageMaker AI finden Sie unter (Archiviert) SageMaker-Modellparallelitätsbibliothek v1.x.
Themen
Einführung in die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism)
Verteiltes Training mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism)
Konfigurationstipps für die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism)
Häufig gestellte Fragen zur Amazon-SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism)
Fehlerbehebung für verteilte Trainings in Amazon SageMaker AI
Versionshinweise zur SageMaker-AI-Datenparallelitätsbibliothek