Starten von verteilten Trainingsjobs mit dem SageMaker Python SDK
Um einen verteilten Trainingsjob mit Ihrem angepassten Skript von Anpassung Ihres Trainingsskripts zur Nutzung der kollektiven SMDDP-Operationen auszuführen, verwenden Sie Framework- oder generische Schätzer des SageMaker Python SDK, indem Sie das vorbereitete Trainingsskript als Einstiegsskript und die verteilte Trainingskonfiguration angeben.
Auf dieser Seite erfahren Sie, wie Sie das SageMaker AI Python SDK
-
Wenn Sie eine schnelle Einführung Ihres verteilten Trainingsjobs in SageMaker AI erreichen möchten, konfigurieren Sie eine PyTorch
- oder TensorFlow -Framework-Schätzerklasse von SageMaker AI. Der Framework-Estimator nimmt Ihr Trainingsskript auf und gleicht automatisch die richtige Bild-URI der vorgefertigten PyTorch- oder TensorFlow Deep Learning Containers (DLC) ab, sofern der für den framework_versionParameter angegebene Wert angegeben ist. -
Wenn Sie einen der vorgefertigten Container erweitern oder einen benutzerdefinierten Container erstellen möchten, um Ihre eigene ML-Umgebung mit SageMaker AI zu erstellen, verwenden Sie die generische
EstimatorKlasse SageMaker AI und geben Sie die Image-URI des benutzerdefinierten Docker-Containers an, der in Ihrer Amazon Elastic Container Registry (Amazon ECR) gehostet wird.
Ihre Trainingsdatensätze sollten in Amazon S3 oder Amazon FSx for Lustre in AWS-Region gespeichert werden, in dem Sie Ihren Trainingsauftrag starten. Wenn Sie Jupyter Notebooks verwenden, sollten Sie eine SageMaker-Notebook-Instance oder eine SageMaker Studio Classic App in derselben AWS-Region ausführen. Weitere Informationen zum Speichern Ihrer Trainingsdaten finden Sie in der Dokumentation zu den Dateneingaben im SageMaker Python SDK
Tipp
Wir empfehlen, dass Sie Amazon FSx für Lustre anstelle von Amazon S3 verwenden, um die Trainingsleistung zu verbessern. Amazon FSx hat einen höheren Durchsatz und eine geringere Latenz als Amazon S3.
Tipp
Zum ordnungsgemäßen Ausführen von verteilten Trainings der EFA-fähigen Instance-Typen sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie die Sicherheitsgruppe Ihrer VPC einrichten, die allen eingehenden und ausgehenden Datenverkehr von und zu der Sicherheitsgruppe selbst zulässt. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter Schritt 1: Vorbereiten einer EFA-fähigen Sicherheitsgruppe im Amazon-EC2-Benutzerhandbuch.
Wählen Sie eines der folgenden Themen mit Anweisungen zum Ausführen eines verteilten Trainingsjobs aus. Nachdem Sie einen Trainingsjob gestartet haben, können Sie die Systemauslastung und die Modellleistung mithilfe von Amazon SageMaker-Debugger Amazon CloudWatch überwachen.
Folgen Sie den Anweisungen in den folgenden Themen, um mehr über technische Details zu erfahren. Wir empfehlen Ihnen jedoch, zunächst Beispiele zur Amazon SageMaker AI Data Parallelism Library das auszuprobieren.