Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kernfunktionen der SageMaker-Modell-Parallelitätsbibliothek
Die Modellparallelitätsbibliothek von Amazon SageMaker AI bietet Verteilungsstrategien und Techniken zur Speichereinsparung, wie z. B. Parallelität fragmentierter Daten, Tensor-Parallelität, Modellpartitionierung nach Layers für die Pipeline-Planung und die Verwendung von Prüfpunkten. Die Strategien und Techniken zur Modellparallelität helfen dabei, große Modelle auf mehrere Geräte zu verteilen und dabei das Trainingsgeschwindigkeit und die Speichernutzung zu optimieren. Die Bibliothek bietet auch Python-Hilfsfunktionen, Kontextmanager und Wrapper-Funktionen, mit denen Sie Ihr Trainingsskript für die automatisierte oder manuelle Partitionierung Ihres Modells anpassen können.
Wenn Sie in Ihrem Trainingsauftrag die Modellparallelität implementieren, behalten Sie denselben zweistufigen Arbeitsablauf bei, der im Abschnitt Verteilten SageMaker-Trainingsauftrag mit Modellparallelität ausführen beschrieben wird. Um Ihr Trainingsskript anzupassen, fügen Sie zu Ihrem Trainingsskript keine oder nur wenige zusätzliche Zeilen Code hinzu. Um anhand des angepassten Trainingsskripts einen Trainingsauftrag zu starten, müssen Sie die Konfigurationsparameter für die Verteilung festlegen, um die speichersparenden Funktionen zu aktivieren oder um Werte für den Parallelitätsgrad zu übergeben.
Beispiele für den Einstieg finden Sie in den folgenden Jupyter Notebooks, die die Verwendung der SageMaker-Modellparallelitätsbibliothek demonstrieren.
Weitere Informationen zu den Kernfunktionen der Bibliothek finden Sie in den folgenden Themen.
Anmerkung
Die verteilten Trainingsbibliotheken von SageMaker sind über die AWS Deep-Learning-Container für PyTorch, Hugging Face und TensorFlow in der SageMaker-Trainingsplattform verfügbar. Um die Funktionen der verteilten Trainingsbibliotheken nutzen zu können, empfehlen wir, die SageMaker Python SDK zu verwenden. Sie können die Konfiguration auch manuell in der JSON-Anfragesyntax vornehmen, wenn Sie SageMaker-APIs über das SDK for Python (Boto3) oder AWS Command Line Interface verwenden. In der gesamten Dokumentation finden Sie Anleitungen und Beispiele zur Verwendung der verteilten Trainingsbibliotheken mit der SageMaker Python SDK.
Wichtig
Die Modellparallelitätsbibliothek von SageMaker unterstützt alle Kernfunktionen von PyTorch sowie die Pipeline-Parallelität für TensorFlow.