Versionshinweise zur SageMaker-AI-Datenparallelitätsbibliothek
In den folgenden Versionshinweisen finden Sie die neuesten Updates für die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism).
Die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) v2.5.0
Datum: 17. Oktober 2024
Neue Features
-
Unterstützung für PyTorch v2.4.1 mit CUDA v12.1 hinzugefügt.
Integration in Docker-Container, die von der SageMaker-AI-Modellparallelitätsbibliothek (SMP) verteilt werden
Diese Version der SMDDP-Bibliothek ist zu SageMaker-Modellparallelitätsbibliothek v2.6.0 oder später migriert.
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
Informationen zu Regionen, in denen die SMP-Docker-Images verfügbar sind, finden Sie unter AWS-Regionen.
Binärdatei dieser Version
Sie können die Bibliothek über die folgende URL herunterladen oder installieren.
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
Die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) v2.3.0
Datum: 11. Juni 2024
Neue Features
-
Unterstützung für PyTorch v2.3.0 mit CUDA v12.1 und Python v3.11 hinzugefügt.
-
Unterstützung für PyTorch Lightning v2.2.5 hinzugefügt Dies ist in den Framework-Container von SageMaker AI für PyTorch v2.3.0 integriert.
-
Es wurde eine Überprüfung des Instance-Typs während des Imports hinzugefügt, um das Laden der SMDDP-Bibliothek bei nicht unterstützten Instance-Typen zu verhindern. Eine Liste der Instance-Typen, die mit der SMDDP-Bibliothek kompatibel sind, finden Sie unter Unterstützte Frameworks, AWS-Regionen und Instance-Typen.
Integration in Framework-Container von SageMaker AI
Diese Version der SMDDP-Bibliothek wurde in den folgenden Framework-Container von SageMaker AI
-
PyTorch v2.3.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
Eine vollständige Liste der Versionen der SMDDP-Bibliothek und der vorgefertigten Container finden Sie unter Unterstützte Frameworks, AWS-Regionen und Instance-Typen.
Binärdatei dieser Version
Sie können die Bibliothek über die folgende URL herunterladen oder installieren.
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
Weitere Änderungen
-
Die SMDDP-Bibliothek v2.2.0 ist in den Framework-Container von SageMaker AI für PyTorch v2.2.0 integriert.
Die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) v2.2.0
Datum: 4. März 2024
Neue Features
-
Unterstützung für PyTorch v2.2.0 mit CUDA v12.1 hinzugefügt.
Integration in Docker-Container, die von der SageMaker-AI-Modellparallelitätsbibliothek (SMP) verteilt werden
Diese Version der SMDDP-Bibliothek ist zu SageMaker-Modellparallelitätsbibliothek v2.2.0 oder später migriert.
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
Informationen zu Regionen, in denen die SMP-Docker-Images verfügbar sind, finden Sie unter AWS-Regionen.
Binärdatei dieser Version
Sie können die Bibliothek über die folgende URL herunterladen oder installieren.
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
Die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) v2.1.0
Datum: 1. März 2024
Neue Features
-
Unterstützung für PyTorch v2.1.0 mit CUDA v12.1 hinzugefügt.
Fehlerbehebungen
-
Das Problem mit dem CPU-Speicherleck in SMDDP v2.0.1 wurde behoben.
Integration in Framework-Container von SageMaker AI
Diese Version der SMDDP-Bibliothek hat die Benchmark-Tests bestanden und wurde in den folgenden Framework-Container von SageMaker AI
-
PyTorch v2.1.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
Integration in Docker-Container, die von der SageMaker-AI-Modellparallelitätsbibliothek (SMP) verteilt werden
Diese Version der SMDDP-Bibliothek ist zu SageMaker-Modellparallelitätsbibliothek v2.1.0 oder später migriert.
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
Informationen zu Regionen, in denen die SMP-Docker-Images verfügbar sind, finden Sie unter AWS-Regionen.
Binärdatei dieser Version
Sie können die Bibliothek über die folgende URL herunterladen oder installieren.
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
Die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) v2.0.1
Datum: 7. Dezember 2023
Neue Features
-
Es wurde eine neue SMDDP-Implementierung für die kollektive
AllGather-Operation hinzugefügt, die für die Rechenressourcen und die Netzwerkinfrastruktur von AWS optimiert ist. Weitere Informationen hierzu finden Sie unter Kollektive SMDDP-AllGather-Operation. -
Die kollektive
AllGather-Operation von SMDDP ist mit PyTorch FSDP und DeepSpeed kompatibel. Weitere Informationen hierzu finden Sie unter Die SMDDP-Bibliothek in Ihrem PyTorch-Trainingsskript verwenden. -
Unterstützung für PyTorch v2.0.1 hinzugefügt
Bekannte Probleme
-
Es gibt ein CPU-Speicherleck, das durch eine allmähliche Erhöhung des CPU-Speichers beim Training mit SMDDP
AllReduceim DDP-Modus entsteht.
Integration in Framework-Container von SageMaker AI
Diese Version der SMDDP-Bibliothek hat die Benchmark-Tests bestanden und wurde in den folgenden Framework-Container von SageMaker AI
-
PyTorch v2.0.1
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
Binärdatei dieser Version
Sie können die Bibliothek über die folgende URL herunterladen oder installieren.
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
Weitere Änderungen
-
Ab dieser Version ist die vollständige Dokumentation für die SMDDP-Bibliothek in diesem Entwicklerhandbuch für Amazon SageMaker AI verfügbar. Zu Gunsten des vollständigen Entwicklerhandbuchs für SMDDP v2, das im Entwicklerhandbuch für Amazon SageMaker AI enthalten ist, wird die Dokumentation für die zusätzliche Referenz für SMDDP v1.x
in der Dokumentation zum SageMaker AI Python SDK nicht mehr unterstützt. Wenn Sie weiterhin die Dokumentation zu SMP v1.x benötigen, sehen Sie sich den folgenden Snapshot der Dokumentation in der Dokumentation zum SageMaker Python SDK v2.212.0 an.