Verteilte Trainingsjobs mit SMDDP mithilfe des SageMaker Python-SDK starten

Um einen verteilten Trainingsjob mit Ihrem angepassten Skript von auszuführenAnpassung Ihres Trainingsskripts zur Nutzung der kollektiven SMDDP-Operationen, verwenden Sie das Framework oder generische Schätzer des SageMaker Python SDK, indem Sie das vorbereitete Trainingsskript als Einstiegsskript und die verteilte Trainingskonfiguration angeben.

Auf dieser Seite erfahren Sie, wie Sie das SageMaker AI Python SDK auf zwei Arten verwenden können.

Wenn Sie eine schnelle Einführung in Ihren verteilten Schulungsberuf im Bereich SageMaker KI erreichen möchten, konfigurieren Sie eine SageMaker KI PyTorch- oder TensorFlowFramework-Estimator-Klasse. Der Framework-Estimator nimmt Ihr Trainingsskript auf und gleicht anhand des für den Parameter angegebenen Werts automatisch die richtige Image-URI der vorgefertigten Container PyTorch oder TensorFlow Deep Learning Container (DLC) ab. framework_version
Wenn Sie einen der vorgefertigten Container erweitern oder einen benutzerdefinierten Container erstellen möchten, um Ihre eigene ML-Umgebung mit SageMaker KI zu erstellen, verwenden Sie die generische Estimator AI-Klasse und geben Sie den SageMaker Image-URI des benutzerdefinierten Docker-Containers an, der in Ihrer Amazon Elastic Container Registry (Amazon ECR) gehostet wird.

Ihre Trainingsdatensätze sollten in Amazon S3 oder Amazon FSx for Lustre in dem Land gespeichert werden, AWS-Region in dem Sie Ihren Trainingsjob starten. Wenn Sie Jupyter-Notebooks verwenden, sollte auf derselben Instanz eine SageMaker Notebook-Instance oder eine SageMaker Studio Classic-App ausgeführt werden. AWS-Region Weitere Informationen zum Speichern Ihrer Trainingsdaten finden Sie in der Dokumentation zu den SageMaker Python-SDK-Dateneingaben.

Tipp

Wir empfehlen, dass Sie Amazon FSx für Lustre anstelle von Amazon S3 verwenden, um die Trainingsleistung zu verbessern. Amazon FSx hat einen höheren Durchsatz und eine geringere Latenz als Amazon S3.

Tipp

Um verteilte Schulungen für die EFA-enabled Instance-Typen ordnungsgemäß durchzuführen, sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie die Sicherheitsgruppe Ihrer VPC so einrichten, dass der gesamte eingehende und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter Schritt 1: Eine EFA-enabled Sicherheitsgruppe vorbereiten im Amazon EC2 EC2-Benutzerhandbuch.

Wählen Sie eines der folgenden Themen mit Anweisungen zum Ausführen eines verteilten Trainingsjobs aus. Nachdem Sie einen Schulungsjob gestartet haben, können Sie die Systemauslastung und die Modellleistung mithilfe von SageMaker Amazon-Debugger Amazon überwachen CloudWatch.

Folgen Sie den Anweisungen in den folgenden Themen, um mehr über technische Details zu erfahren. Wir empfehlen Ihnen jedoch, zunächst Beispiele für die Amazon SageMaker AI-Bibliothek zur Datenparallelität das auszuprobieren.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

TensorFlow (veraltet)

Verwenden Sie die PyTorch Framework-Schätzer im SageMaker Python-SDK