Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Führen Sie PyTorch-Trainingsjobs mit dem SageMaker Training Compiler aus
Sie können jede der SageMaker-AI-Schnittstellen verwenden, um einen Trainingsjob mit dem SageMaker Training Compiler auszuführen: Amazon SageMaker Studio Classic, Notebook-Instances für Amazon SageMaker, AWS SDK für Python (Boto3) und AWS Command Line Interface.
Themen
Verwenden des SageMaker Python SDK
Der SageMaker Training Compiler für PyTorch ist über die Framework-Schätzerklassen PyTorchHuggingFacecompiler_config-Parameter zu den SageMaker-AI-Schätzern hinzu. Importieren Sie die TrainingCompilerConfig-Klasse und übergeben Sie eine Instance davon an den compiler_config-Parameter. Die folgenden Codebeispiele zeigen die Struktur der SageMaker-AI-Schätzerklassen bei aktiviertem SageMaker Training Compiler.
Tipp
Um mit den von PyTorch oder Transformers bereitgestellten vorgefertigten Modellen zu beginnen, sollten Sie die in der Referenztabelle bei Getestete Modelle angegebenen Losgrößen verwenden.
Anmerkung
Die native PyTorch-Unterstützung ist im SageMaker Python SDK v2.121.0 und höher verfügbar. Stellen Sie sicher, dass Sie das SageMaker Python SDK entsprechend aktualisieren.
Anmerkung
Ab PyTorch v1.12.0 sind SageMaker Training Compiler-Container für PyTorch verfügbar. Beachten Sie, dass die SageMaker Training Compiler-Container für PyTorch nicht mit Hugging Face Transformers vorkonfiguriert sind. Wenn Sie die Bibliothek im Container installieren müssen, stellen Sie sicher, dass Sie die requirements.txt Datei im Quellverzeichnis hinzufügen, wenn Sie einen Trainingsjob einreichen.
Verwenden Sie für PyTorch v1.11.0 und früher die vorherigen Versionen der SageMaker Training Compiler-Container für Hugging Face und PyTorch.
Eine vollständige Liste der Framework-Versionen und der entsprechenden Container-Informationen finden Sie unter Unterstützte Frameworks.
Weitere Informationen, die zu Ihrem Anwendungsfall passen, finden Sie unter einer der folgenden Optionen.
Die folgende Liste enthält die minimalen Parameter, die für die Ausführung eines SageMaker-Trainingsjobs mit dem Compiler erforderlich sind.
Anmerkung
Wenn Sie den Hugging-Face-Schätzer von SageMaker AI verwenden, müssen Sie die Parameter transformers_version, pytorch_version, hyperparameters und compiler_config angeben, um den SageMaker Training Compiler zu aktivieren. Sie können image_uri nicht verwenden, um die unter Unterstützte Frameworks aufgelisteten integrierten Deep-Learning-Container für den Trainingscompiler manuell anzugeben.
-
entry_point(str) – Erforderlich. Geben Sie den Dateinamen Ihres Trainingsskripts an.Anmerkung
Um ein verteiltes Training mit SageMaker Training Compiler und PyTorch v1.10.2 und früher durchzuführen, geben Sie den Dateinamen eines Launcher-Skripts für diesen Parameter an. Das Launcher-Skript sollte so vorbereitet sein, dass es Ihr Trainingsskript umschließt und die verteilte Trainingsumgebung konfiguriert. Weitere Informationen finden Sie in den folgenden Notebook-Beispielen:
-
source_dir(str) – Optional. Fügen Sie dies hinzu, wenn Sie zusätzliche Pakete installieren müssen. Um Pakete zu installieren, müssen Sie einerequirements.txtDatei in diesem Verzeichnis vorbereiten. -
instance_count(int) – Erforderlich. Geben Sie die Anzahl der Instances an. -
instance_type(str) – Erforderlich. Geben Sie den Instance-Typ an. -
transformers_version(str) – Nur erforderlich, wenn Sie den Hugging-Face-Schätzer von SageMaker AI verwenden. Geben Sie die Hugging Face Transformers-Bibliotheksversion an, die vom SageMaker Training Compiler unterstützt wird. Die verfügbaren Versionen finden Sie unter Unterstützte Frameworks. -
framework_versionoderpytorch_version(str) – Erforderlich. Geben Sie die PyTorch-Version an, die vom SageMaker Training Compiler unterstützt wird. Die verfügbaren Versionen finden Sie unter Unterstützte Frameworks.Anmerkung
Wenn Sie den Hugging-Face-Schätzer von SageMaker AI verwenden, müssen Sie sowohl
transformers_versionals auchpytorch_versionangeben. -
hyperparameters(dict) – Optional. Geben Sie Hyperparameter für den Trainingsjob an, z. B.n_gpusbatch_size, undlearning_rate. Wenn Sie den SageMaker Training Compiler aktivieren, probieren Sie größere Batchgrößen aus und passen Sie die Lernrate entsprechend an. Fallstudien zur Verwendung des Compilers und zur Anpassung der Batchgrößen zur Verbesserung der Trainingsgeschwindigkeit finden Sie unter Getestete Modelle und Beispiel-Notebooks und Blogs für den SageMaker Training Compiler.Anmerkung
Um ein verteiltes Training mit SageMaker Training Compiler und PyTorch v1.10.2 und früher durchzuführen, müssen Sie einen zusätzlichen Parameter hinzufügen,
"training_script", um Ihr Trainingsskript zu spezifizieren, wie im vorherigen Codebeispiel gezeigt. -
compiler_config(TrainingCompilerConfig-Objekt) – Erforderlich, um den SageMaker Training Compiler zu aktivieren. Fügen Sie diesen Parameter hinzu, um den SageMaker Training Compiler zu aktivieren. Nachfolgend sind die Parameter für die KlasseTrainingCompilerConfigaufgeführt.-
enabled(bool) – Optional. Geben SieTrueoderFalsean, um den SageMaker Training Compiler zu aktivieren oder zu deaktivieren. Der Standardwert istTrue. -
debug(bool) – Optional. Um detailliertere Trainingsprotokolle von Ihren Compiler-beschleunigten Trainingsaufträgen zu erhalten, ändern Sie es zuTrue. Die zusätzliche Protokollierung kann jedoch den Aufwand erhöhen und den kompilierten Trainingsjob verlangsamen. Der Standardwert istFalse.
-
-
distribution(dict) – Fakultativ. Um einen verteilten Trainingsjob mit dem SageMaker Training Compiler auszuführen, fügen Siedistribution = { 'pytorchxla' : { 'enabled': True }}hinzu.
Warnung
Wenn Sie den SageMaker Debugger aktivieren, kann dies die Leistung von SageMaker Training Compiler beeinträchtigen. Wir empfehlen, den Debugger zu deaktivieren, wenn Sie den SageMaker Training Compiler ausführen, um sicherzustellen, dass die Leistung nicht beeinträchtigt wird. Weitere Informationen finden Sie unter Überlegungen. Um die Debugger-Funktionen auszuschalten, fügen Sie dem Schätzer die folgenden beiden Argumente hinzu:
disable_profiler=True, debugger_hook_config=False
Wenn der Trainingsjob mit dem Compiler erfolgreich gestartet wurde, erhalten Sie während der Job-Initialisierungsphase die folgenden Protokolle:
-
Mit
TrainingCompilerConfig(debug=False)Found configuration for Training Compiler Configuring SM Training Compiler... -
Mit
TrainingCompilerConfig(debug=True)Found configuration for Training Compiler Configuring SM Training Compiler... Training Compiler set to debug mode
Verwenden der CreateTrainingJob-API-Operation von SageMaker AI
SageMaker Training Compiler-Konfigurationsoptionen müssen über die Felder AlgorithmSpecification und HyperParameters in der Anforderungssyntax für den CreateTrainingJobAPI-Vorgang angegeben werden.
"AlgorithmSpecification": { "TrainingImage": "<sagemaker-training-compiler-enabled-dlc-image>" }, "HyperParameters": { "sagemaker_training_compiler_enabled": "true", "sagemaker_training_compiler_debug_mode": "false", "sagemaker_pytorch_xla_multi_worker_enabled": "false" // set to "true" for distributed training }
Eine vollständige Liste der Deep-Learning-Container-Image-URIs, für die der SageMaker Training Compiler implementiert wurde, finden Sie unter Unterstützte Frameworks.