Unterstützte Frameworks AWS-Regionen Unterstützte Instance-Typen

Unterstützte Frameworks, AWS-Regionen und Instance-Typen

Bevor Sie die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) verwenden, überprüfen Sie, welche ML-Frameworks und Instance-Typen unterstützt werden und ob in Ihrem AWS-Konto und AWS-Region genügend Kontingente vorhanden sind.

Unterstützte Frameworks

Die folgenden Tabellen zeigen die Deep-Learning-Frameworks und ihre Versionen, die von SageMaker AI und SMDDP unterstützt werden. Die SMDDP-Bibliothek ist in Framework-Containern von SageMaker AI verfügbar, integriert in Docker-Containern, die von der SageMaker-Modellparallelitätsbibliothek (SMP) v2 verteilt werden, oder kann als Binärdatei heruntergeladen werden.

Anmerkung

Die neuesten Updates und Versionshinweise der SMDDP-Bibliothek finden Sie in den Versionshinweise zur SageMaker-AI-Datenparallelitätsbibliothek.

PyTorch

PyTorch-Version	Version der SMDDP-Bibliothek	Framework-Container-Images von SageMaker AI mit vorinstalliertem SMDDP	SMP-Docker-Images mit vorinstalliertem SMDDP	URL der Binärdatei**
v2.3.1	`smdistributed-dataparallel==v2.5.0`	Nicht verfügbar	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl`
v2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	Derzeit nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
v2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
v2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
v2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`
v2.0.0	`smdistributed-dataparallel==v1.8.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl`
v1.13.1	`smdistributed-dataparallel==v1.7.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl`
v1.12.1	`smdistributed-dataparallel==v1.6.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl`
v1.12.0	`smdistributed-dataparallel==v1.5.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl`
v1.11.0	`smdistributed-dataparallel==v1.4.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl`

** Die URLs der Binärdateien dienen der Installation der SMDDP-Bibliothek in benutzerdefinierten Containern. Weitere Informationen finden Sie unter Ihren eigenen Docker-Container mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallel) erstellen.

Anmerkung

Die SMDDP-Bibliothek ist in AWS-Regionen verfügbar, in denen die Framework-Container von SageMaker AI und die SMP-Docker-Images in Betrieb sind.

Anmerkung

Die SMDDP-Bibliothek v1.4.0 und höher funktioniert als Backend der verteilten (torch.distributed) Datenparallelität (torch.parallel.DistributedDataParallel) von PyTorch. Gemäß der Änderung sind die folgenden smdistributed-APIs für das PyTorch-Distributed-Paket veraltet.

smdistributed.dataparallel.torch.distributed ist veraltet. Verwenden Sie stattdessen das Paket torch.distributed.
smdistributed.dataparallel.torch.parallel.DistributedDataParallel ist veraltet. Verwenden Sie stattdessen die torch.nn.parallel.DistributedDataParallel-API.

Wenn Sie die vorherigen Versionen der Bibliothek (v1.3.0 oder früher) verwenden müssen, finden Sie in der archivierten Dokumentation zu SageMaker AI Distributed Data Parallelism in der Dokumentation zum SageMaker AI Python SDK weitere Informationen.

PyTorch Lightning

Die SMDDP-Bibliothek ist für PyTorch Lightning in den folgenden Framework-Containern von SageMaker AI für PyTorch und den SMP-Docker-Containern verfügbar.

PyTorch Lightning v2

PyTorch-Lightning-Version	PyTorch-Version	Version der SMDDP-Bibliothek	Framework-Container-Images von SageMaker AI mit vorinstalliertem SMDDP	SMP-Docker-Images mit vorinstalliertem SMDDP	URL der Binärdatei**
2.2.5	2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	Derzeit nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
2.2.0	2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
2.1.2	2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
2.1.0	2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	Nicht verfügbar	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`

PyTorch Lightning v1

PyTorch-Lightning-Version PyTorch-Version Version der SMDDP-Bibliothek Framework-Container-Images von SageMaker AI mit vorinstalliertem SMDDP URL der Binärdatei**

PyTorch-Lightning-Version	PyTorch-Version	Version der SMDDP-Bibliothek	Framework-Container-Images von SageMaker AI mit vorinstalliertem SMDDP	URL der Binärdatei**
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10	1.12.0	`smdistributed-dataparallel==v1.5.0`	763104351884.dkr.ecr.`<region>`.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker	https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0

smdistributed-dataparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

Anmerkung

PyTorch Lightning und seine Hilfsbibliotheken wie Lightning Bolts sind in den PyTorch-DLCs nicht vorinstalliert. Wenn Sie einen PyTorch-Schätzer von SageMaker AI konstruieren und in Schritt 2 einen Trainingsjob einreichen, müssen Sie requirements.txt angeben, um pytorch-lightning und lightning-bolts im PyTorch-Trainingscontainer von SageMaker AI zu installieren.


# requirements.txt
pytorch-lightning
lightning-bolts

Weitere Informationen zur Angabe des Quellverzeichnisses, in dem die requirements.txt Datei zusammen mit Ihrem Trainingsskript und einer Auftragsübermittlung abgelegt werden soll, finden Sie unter Verwenden von Bibliotheken von Drittanbietern in der Dokumentation zum Amazon SageMaker AI Python SDK.

Hugging Face Transformer

Die AWS Deep Learning Containers für Hugging Face verwenden die SageMaker-Trainingscontainer für PyTorch und TensorFlow als Basisimages. Die Bibliotheksversionen von Hugging Face Transformers und die gepaarten Versionen von PyTorch und TensorFlow finden Sie in den neuesten Hugging Face Containers und den vorherigen Hugging Face Container-Versionen.

TensorFlow (veraltet)

Wichtig

Die SMDDP-Bibliothek hat die Unterstützung für TensorFlow eingestellt und ist in DLCs für TensorFlow ab Version 2.11.0 nicht mehr verfügbar. In der folgenden Tabelle sind frühere DLCs für TensorFlow aufgeführt, auf denen die SMDDP-Bibliothek installiert war.

TensorFlow Version	Version der SMDDP-Bibliothek
2.9.1, 2.10.1, 2.11.0	`smdistributed-dataparallel==v1.4.1`
2.8.3	`smdistributed-dataparallel==v1.3.0`

AWS-Regionen

Die SMDDP-Bibliothek ist in allen AWS-Regionen verfügbar, in denen die AWSDeep-Learning-Container von SageMaker AI und die SMP-Docker-Images in Betrieb sind.

Unterstützte Instance-Typen

Die SMDDP-Bibliothek erfordert einen der folgenden Instance-Typen.

Instance-Typ
`ml.p3dn.24xlarge`*
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`

Tipp

Zum ordnungsgemäßen Ausführen von verteilten Trainings der EFA-fähigen Instance-Typen sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie die Sicherheitsgruppe Ihrer VPC einrichten, die allen eingehenden und ausgehenden Datenverkehr von und zu der Sicherheitsgruppe selbst zulässt. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter Schritt 1: Vorbereiten einer EFA-fähigen Sicherheitsgruppe im Amazon-EC2-Benutzerhandbuch.

Wichtig

* Die SMDDP-Bibliothek hat die Unterstützung für die Optimierung ihrer kollektiven Kommunikationsoperationen auf P3-Instances eingestellt. Sie können zwar weiterhin das SMDDP-optimierte AllReduce-Kollektiv auf ml.p3dn.24xlarge-Instances verwenden, aber es wird keinen weiteren Entwicklungssupport geben, um die Leistung auf diesem Instance-Typ zu verbessern. Beachten Sie, dass das SMDDP-optimierte AllGather-Kollektiv nur für P4-Instances verfügbar ist.

Die Spezifikationen der Instance-Typen finden Sie im Abschnitt Beschleunigte Datenverarbeitung auf der Seite Amazon-EC2-Instance-Typen. Informationen zu den Preisen für Instances finden Sie unter Preise von Amazon SageMaker.

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen Sie eine Erhöhung des Servicekontingents für SageMaker-AI-Ressourcen.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einführung in die SMDDP-Bibliothek

Verteiltes Training mit der SMDDP-Bibliothek