Führen Sie verteilte Trainings mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) durch - Amazon SageMaker AI

Führen Sie verteilte Trainings mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) durch

Die SageMaker-AI-Bibliothek für verteilte Datenparallelität (SMDDP) erweitert die Trainingsfunktionen von SageMaker auf Deep-Learning-Modellen mit nahezu linearer Skalierungseffizienz durch Implementierungen kollektiver Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.

Beim Training großer Machine-Learning-Modelle (ML), wie z. B. große Sprachmodelle (LLM) und Diffusionsmodelle, auf einem riesigen Trainingsdatensatz verwenden ML-Praktiker Cluster von Beschleunigern und verteilte Trainingstechniken, um die Zeit für das Training zu reduzieren oder Speicherbeschränkungen für Modelle zu lösen, die nicht in jeden GPU-Speicher passen. ML-Praktiker beginnen häufig mit mehreren Beschleunigern auf einer einzigen Instance und skalieren dann auf Cluster von Instances, wenn ihre Workload-Anforderungen steigen. Mit zunehmender Clustergröße nimmt auch der Kommunikationsaufwand zwischen mehreren Knoten zu, was zu einem Rückgang der gesamten Rechenleistung führt.

Um solchen Aufwands- und Speicherproblemen zu begegnen, bietet die SMDDP-Bibliothek Folgendes.

  • Die SMDDP-Bibliothek optimiert Trainingsjobs für die AWS-Netzwerkinfrastruktur und die ML-Instance-Topologie von Amazon SageMaker AI.

  • Die SMDDP-Bibliothek verbessert die Kommunikation zwischen Knoten durch Implementierungen von kollektiven AllReduce- und AllGather-Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.

Weitere Informationen dazu, was die SMDDP-Bibliothek bietet, finden Sie unter Einführung in die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism).

Weitere Informationen zum Training mit der Modellparallelitätsstrategie von SageMaker AI finden Sie unter (Archiviert) SageMaker-Modellparallelitätsbibliothek v1.x.