Cadres de travail, Régions AWS et types d’instances pris en charge - Amazon SageMaker AI

Cadres de travail, Régions AWS et types d’instances pris en charge

Avant d’utiliser la bibliothèque SageMaker AI de parallélisme distribué des données (SMDDP), vérifiez quels sont les cadres de ML et les types d’instances pris en charge, et si les quotas sont suffisants dans votre compte AWS et votre Région AWS.

Cadres de travail pris en charge

Les tableaux suivants présentent les versions des cadres de deep learning pris en charge par SageMaker AI et SMDDP. La bibliothèque SMDDP est disponible dans les conteneurs de cadres SageMaker AI, intégrée dans les conteneurs Docker distribués par la version 2 de la bibliothèque SageMaker de parallélisme des modèles (SMP v2), ou téléchargeable sous forme de fichier binaire.

Note

Pour vérifier les dernières mises à jour et notes de mises à jour de la bibliothèque SMDDP, consultez les Notes de mise à jour de la bibliothèque SageMaker AI de parallélisme des modèles.

PyTorch

Version PyTorch Version de la bibliothèque SMDDP Images de conteneurs de cadres SageMaker AI préinstallées avec SMDDP Images Docker SMP préinstallées avec SMDDP URL du fichier binaire**
v2.3.1 smdistributed-dataparallel==v2.5.0 Non disponible 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Non disponible actuellement https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Les URL des fichiers binaires servent à installer la bibliothèque SMDDP dans des conteneurs personnalisés. Pour plus d’informations, consultez Création de votre propre conteneur Docker avec la bibliothèque SageMaker AI de parallélisme distribué des données.

Note

La bibliothèque SMDDP est disponible dans les Régions AWS où les conteneurs de cadres SageMaker AI et les images Docker SMP sont en service.

Note

Les versions 1.4.0 et ultérieures de la bibliothèque SMDDP fonctionnent comme système dorsal du parallélisme distribué (torch.parallel.DistributedDataParallel, torch.distributed) des données PyTorch. Conformément à la modification, les API smdistributed suivantes pour le package distribué PyTorch sont obsolètes.

Si vous devez utiliser les versions précédentes de la bibliothèque (v1.3.0 ou antérieures), consultez la documentation archivée de la bibliothèque SageMaker AI de parallélisme distribué des données dans la documentation du kit SageMaker AI Python SDK.

PyTorch Lightning

La bibliothèque SMDDP est disponible pour PyTorch Lightning dans les conteneurs de cadres SageMaker AI suivants pour PyTorch et dans les conteneurs Docker SMP.

PyTorch Lightning v2

Versions de PyTorch Lightning Version PyTorch Version de la bibliothèque SMDDP Images de conteneurs de cadres SageMaker AI préinstallées avec SMDDP Images Docker SMP préinstallées avec SMDDP URL du fichier binaire**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Non disponible actuellement https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

Versions de PyTorch Lightning Version PyTorch Version de la bibliothèque SMDDP Images de conteneurs de cadres SageMaker AI préinstallées avec SMDDP URL du fichier binaire**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<région>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Les URL des fichiers binaires servent à installer la bibliothèque SMDDP dans des conteneurs personnalisés. Pour plus d’informations, consultez Création de votre propre conteneur Docker avec la bibliothèque SageMaker AI de parallélisme distribué des données.

Note

PyTorch Lightning et ses bibliothèques d'utilitaires telles que Lightning Bolts ne sont pas préinstallés dans les conteneurs DLC PyTorch. Lorsque vous construisez un estimateur SageMaker PyTorch et soumettez une demande de tâche d’entraînement à l’Étape 2, vous devez fournir requirements.txt pour installer pytorch-lightning et lightning-bolts dans le conteneur d’entraînement SageMaker AI PyTorch.

# requirements.txt pytorch-lightning lightning-bolts

Pour plus d’informations sur la spécification du répertoire source où placer le fichier requirements.txt avec votre script d’entraînement et une soumission de tâche, consultez Utilisation des bibliothèques tierces dans la documentation du kit Amazon SageMaker AI Python SDK.

Hugging Face Transformers

Les conteneurs de Deep Learning AWS pour Hugging Face utilisent les conteneurs d'entraînement SageMaker pour PyTorch et TensorFlow comme images de base. Pour obtenir les versions de la bibliothèque de transformateurs Hugging Face et les versions appariées de PyTorch et TensorFlow, consultez les derniers conteneurs Hugging Face et les versions antérieures du conteneur Hugging Face.

TensorFlow (obsolète)

Important

La bibliothèque SMDDP ne prend plus en charge TensorFlow et n’est plus disponible dans les DLC pour TensorFlow ultérieurs à la version 2.11.0. Le tableau suivant répertorie les DLC précédents pour TensorFlow sur lesquels la bibliothèque SMDDP est installée.

Version de TensorFlow Version de la bibliothèque SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Régions AWS

La bibliothèque SMDDP est disponible dans toutes les Régions AWS où les conteneurs de cadres de deep learning AWS pour SageMaker AI et les images Docker SMP sont en service.

Types d’instance pris en charge

La bibliothèque SMDDP requiert l’un des types d’instances suivants.

Type d’instance
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
Astuce

Pour que vous puissiez exécuter correctement un entraînement distribué sur les types d’instances compatibles EFA, vous devez activer le trafic entre les instances en configurant le groupe de sécurité de votre VPC afin d’autoriser tout le trafic entrant et sortant vers et depuis le groupe de sécurité proprement dit. Pour découvrir comment configurer les règles du groupe de sécurité, consultez Étape 1 : Préparer un groupe de sécurité activé pour les EFA dans le Guide de l’utilisateur Amazon EC2.

Important

* La bibliothèque SMDDP a cessé de prendre en charge l’optimisation de ses opérations de communication collective sur les instances P3. Bien que vous puissiez toujours utiliser l’opération collective optimisée AllReduce SMDDP sur les instances ml.p3dn.24xlarge, il n’y aura plus d’assistance au développement pour améliorer les performances sur ce type d’instance. Notez que l’opération collective optimisée AllGather SMDDP n’est disponible que pour les instances P4.

Pour les spécifications des types d'instances, consultez la section Calcul accéléré sur la page Types d'instances Amazon EC2. Pour plus d’informations sur la tarification des instances, consultez Tarification d’Amazon SageMaker.

Si vous rencontrez un message d’erreur semblable au suivant, suivez les instructions de la section Demande d’augmentation du quota de service pour les ressources SageMaker AI.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.