Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Versionshinweise zum Amazon SageMaker Training Compiler
Wichtig
Amazon Web Services (AWS) gibt bekannt, dass es keine neuen Versionen von SageMaker Training Compiler geben wird. Sie können den SageMaker Training Compiler weiterhin über die vorhandenen AWS Deep Learning Containers (DLCs) für SageMaker Training verwenden. Es ist wichtig zu beachten, dass auf die vorhandenen DLCs zwar weiterhin zugegriffen werden kann, sie jedoch gemäß der Framework-Supportrichtlinie für Deep-Learning-Container von AWS keine Patches oder Updates mehr erhalten.
In den folgenden Versionshinweisen finden Sie die neuesten Updates für Amazon SageMaker Training Compiler.
Versionshinweise zum SageMaker Training Compiler: 13. Februar 2023
Aktualisierungen der Währungen
Unterstützung für PyTorch v1.13.1 hinzugefügt
Fehlerbehebungen
-
Es wurde ein Problem mit den Rennbedingungen auf der GPU behoben, das bei einigen Modellen wie Vision Transformer (ViT) zu einem Verlust von NAN führte.
Weitere Änderungen
-
Der SageMaker Training Compiler verbessert die Leistung, indem PyTorch/XLA die Optimierer (wie SGD, Adam, AdamW) in
torch.optimodertransformers.optimizationmit ihren syncfree-Versionen (wie,,) automatisch überschreibt.torch_xla.amp.syncfreetorch_xla.amp.syncfree.SGDtorch_xla.amp.syncfree.Adamtorch_xla.amp.syncfree.AdamWSie müssen die Codezeilen, in denen Sie Optimizer in Ihrem Trainingsskript definieren, nicht ändern.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 9. Januar 2023
Abwärtskompatible Änderungen
-
tf.keras.optimizers.Optimizerzeigt auf einen neuen Optimierer in TensorFlow 2.11.0 und höher. Die alten Optimierer wurden verschoben.tf.keras.optimizers.legacyWenn Sie wie folgt vorgehen, kann es aufgrund der bahnbrechenden Änderung zu einem Fehlschlagen des Auftrags kommen.-
Laden Sie Checkpoints aus einem alten Optimizer. Wir empfehlen Ihnen, zu den älteren Optimierern zu wechseln.
-
Verwenden Sie TensorFlow v1. Wir empfehlen Ihnen, auf TensorFlow v2 zu migrieren oder zu den älteren Optimierern zu wechseln, wenn Sie TensorFlow v1 weiterhin verwenden müssen.
Eine detailliertere Liste der wichtigsten Änderungen aufgrund der Optimierer-Änderungen finden Sie in den offiziellen Versionshinweisen zu TensorFlow v2.11.0
im TensorFlow GitHub-Repository. -
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 8. Dezember 2022
Fehlerbehebungen
-
Der Startwert für PyTorch-Trainingsjobs ab PyTorch v1.12 wurde behoben, um sicherzustellen, dass es keine Diskrepanzen bei der Modellinitialisierung zwischen verschiedenen Prozessen gibt. Siehe auch PyTorch-Reproduzierbarkeit
.
Bekannte Probleme
-
Die unsachgemäße Verwendung von PyTorch/XLA-APIs in den Bildverarbeitungstransformatoren von Hugging Face kann zu Konvergenzproblemen führen.
Weitere Änderungen
-
Wenn Sie die
TrainerKlasse Hugging Face Transformers verwenden, stellen Sie sicher, dass Sie SyncFree-Optimizer verwenden, indem Sie das Argumentoptimaufadamw_torch_xlasetzen. Weitere Informationen finden Sie unter Große Sprachmodelle, die die Hugging Face Transformers-Trainer Klasse verwenden. Siehe auch Optimizerin der Dokumentation zu Hugging Face Transformers.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
PyTorch v1.12.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 4. Oktober 2022
Aktualisierungen der Währungen
-
Unterstützung für TensorFlow v2.10.0 hinzugefügt.
Weitere Änderungen
-
Hugging Face NLP-Modelle unter Verwendung der Transformers-Bibliothek zu den TensorFlow-Framework-Tests hinzugefügt. Informationen zu den getesteten Transformer-Modellen finden Sie unter. Getestete Modelle
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 1. September 2022
Aktualisierungen der Währungen
-
Unterstützung für Hugging Face Transformers v4.21.1 mit PyTorch v1.11.0 hinzugefügt.
Verbesserungen
-
Es wurde ein neuer verteilter Trainingsstartmechanismus implementiert, um den SageMaker Training Compiler für Hugging Face Transformer-Modelle mit PyTorch zu aktivieren. Weitere Informationen finden Sie unter Ausführen von PyTorch-Trainingsjobs mit dem SageMaker Training Compiler for Distributed Training.
-
Integriert in EFA, um die kollektive Kommunikation bei verteilten Trainings zu verbessern.
-
Unterstützung für G5-Instances für PyTorch-Trainingsjobs hinzugefügt. Weitere Informationen finden Sie unter Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
HuggingFace v4.21.1 mit PyTorch v1.11.0
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04Eine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 14. Juni 2022
Neue Features
-
Unterstützung für TensorFlow v2.9.1 hinzugefügt. Der SageMaker Training Compiler unterstützt das Kompilieren von TensorFlow-Modulen (
tf.*) und TensorFlow Keras-Modulen () vollständig.tf.keras.* -
Unterstützung für benutzerdefinierte Container hinzugefügt, die durch die Erweiterung von AWS Deep Learning Containers for TensorFlow erstellt wurden. Weitere Informationen finden Sie unter Aktivieren des SageMaker-Trainingscompilers mithilfe des SageMaker Python SDK und Erweitern von Deep Learning Containers für das SageMaker-AI-Framework.
-
Unterstützung für G5-Instances für TensorFlow-Trainingsjobs hinzugefügt.
Migration zu AWS Deep Learning Containers
Diese Version hat die Benchmark-Tests bestanden und wurde auf den folgenden AWS Deep-Learning-Container migriert:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerEine vollständige Liste der mit dem Amazon SageMaker Training Compiler vorgefertigten Container finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle
Versionshinweise zum SageMaker Training Compiler: 26. April 2022
Verbesserungen
-
Unterstützung für alle Bereiche hinzugefügt, in AWS-Regionen denen AWSDeep Learning Containers
im Einsatz sind, mit Ausnahme der Regionen China.
Versionshinweise zum SageMaker Training Compiler: 12. April 2022
Aktualisierungen der Währungen
-
Unterstützung für Hugging Face Transformers v4.17.0 mit TensorFlow v2.6.3 und PyTorch v1.10.2 hinzugefügt.
Versionshinweise zum SageMaker Training Compiler: 21. Februar 2022
Verbesserungen
-
Der Benchmark-Test wurde abgeschlossen und die Trainingsbeschleunigung für die Instance-Typen bestätigt.
ml.g4dnEine vollständige Liste der getestetenmlInstances finden Sie unter. Unterstützte Instance-Typen
Versionshinweise zum SageMaker Training Compiler: 01. Dezember 2021
Neue Features
Der Amazon SageMaker Training Compiler wurde auf AWS der re:Invent 2021 vorgestellt.
Migration zu AWS Deep Learning Containers
Amazon SageMaker Training Compiler hat die Benchmark-Tests bestanden und wurde auf Deep Learning Containers migriert. AWS Eine vollständige Liste der vorkonfigurierten Container mit dem Amazon SageMaker Training Compiler finden Sie unter. Unterstützte Frameworks, AWS-Regionen, Instancetypen und getestete Modelle