Cadres pris en et Régions AWS - Amazon SageMaker AI

Cadres pris en et Régions AWS

Avant d'utiliser la bibliothèque de parallélisme de modèles SageMaker, vérifiez les cadres et les types d'instances pris en charge et déterminez si les quotas sont suffisants dans votre compte AWS et dans la Région AWS.

Note

Pour vérifier les dernières mises à jour et notes de mises à jour de la bibliothèque, consultez SageMaker Model Parallel Release Notes (Notes de version de modèles parallèles SageMaker) dans la documentation du kit SDK Python SageMaker.

Cadres pris en charge

La bibliothèque de parallélisme de modèles SageMaker prend en charge les cadres de deep learning suivants. Elle est disponible dans AWS Deep Learning Containers (DLC) ou téléchargeable sous forme de fichier binaire.

Versions PyTorch prises en charge par SageMaker AI et la bibliothèque SageMaker de parallélisme des modèles

Version PyTorch Version de la bibliothèque de parallélisme de modèles SageMaker URI de l'image intégrée smdistributed-modelparallel URL du fichier binaire**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
Note

La bibliothèque de parallélisme de modèles SageMaker v1.6.0 et ultérieures offre des fonctions étendues pour PyTorch. Pour plus d’informations, consultez Principales fonctions de la bibliothèque de parallélisme de modèles SageMaker.

** Les URL des fichiers binaires servent à installer la bibliothèque de parallélisme de modèles SageMaker dans des conteneurs personnalisés. Pour plus d’informations, consultez Création de votre propre conteneur Docker avec la bibliothèque de modèles parallèles distribuées SageMaker.

Versions TensorFlow prises en charge par SageMaker AI et la bibliothèque SageMaker de parallélisme des modèles

Version de TensorFlow Version de la bibliothèque de parallélisme de modèles SageMaker URI de l'image DLC intégrée smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versions des transformeurs Hugging Face prises en charge par SageMaker AI et la bibliothèque SageMaker de parallélisme distribué des données

Les conteneurs de Deep Learning AWS pour Hugging Face utilisent les conteneurs d'entraînement SageMaker pour PyTorch et TensorFlow comme images de base. Pour obtenir les versions de la bibliothèque de transformateurs Hugging Face et les versions appariées de PyTorch et TensorFlow, consultez les derniers conteneurs Hugging Face et les versions antérieures du conteneur Hugging Face.

Régions AWS

La bibliothèque parallèle de données SageMaker est disponible dans l'ensemble des Régions AWS où les conteneurs de Deep Learning AWS pour SageMaker sont en service. Pour plus d’informations, consultez Images Deep Learning Containers disponibles.

Types d'instance pris en charge

La bibliothèque de parallélisme de modèles SageMaker exige l'un des types d'instances de ML suivants.

Type d’instance
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Pour les spécifications des types d'instances, consultez la section Calcul accéléré sur la page Types d'instances Amazon EC2. Pour en savoir plus sur la tarification des instances, consultez Tarification d’Amazon SageMaker AI.

Si vous rencontrez un message d’erreur semblable au suivant, suivez les instructions de la section Demande d’augmentation du quota de service pour les ressources SageMaker AI.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.