Cadres pris en charge Régions AWS Types d’instance pris en charge

Cadres et Régions AWS pris en charge

Avant d’utiliser la bibliothèque SageMaker de parallélisme des modèles v2 (SMP v2), vérifiez les cadres et les types d’instances pris en charge, et déterminez si les quotas sont suffisants dans votre compte AWS et dans la Région AWS.

Note

Pour vérifier les dernières mises à jour et notes de mises à jour de la bibliothèque, consultez Notes de mise à jour de la bibliothèque SageMaker de parallélisme des modèles.

Cadres pris en charge

SMP v2 prend en charge les cadres de deep learning suivants et est disponible via les conteneurs Docker SMP et un canal Conda SMP. Si vous utilisez les classes d’estimateur de cadre du kit SageMaker Python SDK et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs Docker SMP. Pour utiliser SMP v2, nous vous recommandons de toujours mettre à jour le kit SageMaker Python SDK dans votre environnement de développement.

Versions PyTorch prises en charge par la bibliothèque SageMaker de parallélisme des modèles

Version PyTorch	Version de la bibliothèque de parallélisme de modèles SageMaker	URI d’image Docker SMP	URI d’image
v2.5.1	`smdistributed-modelparallel==v2.8.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh`
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/A
	`smdistributed-modelparallel==v2.6.0`		N/A
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/A
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/A
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/A
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/A
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/A
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/A

Canal Conda SMP

Le compartiment Amazon S3 suivant est le canal Conda public hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement tel que les clusters SageMaker HyperPod, utilisez ce canal Conda pour effectuer cette opération correctement.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Pour plus d’informations sur les canaux Conda en général, consultez Channels dans la documentation Conda.

Note

Pour trouver les versions précédentes de la bibliothèque SMP v1.x et les DLC pré-empaquetés, consultez Cadres pris en charge dans la documentation SMP v1.

Utilisation de SMP v2 avec des bibliothèques open source

La bibliothèque SMP v2 fonctionne avec d’autres bibliothèques open source basées sur PyTorch, telles que PyTorch Lightning, Transformeurs Hugging Face et Hugging Face Accelerate, car SMP v2 est compatible avec les API PyTorch FSDP. Si vous avez d’autres questions sur l’utilisation de la bibliothèque SMP avec d’autres bibliothèques tierces, contactez l’équipe du service SMP à l’adresse sm-model-parallel-feedback@amazon.com.

Régions AWS

SMP v2 est disponible dans les Régions AWS suivantes. Si vous souhaitez utiliser les URI d’image Docker SMP ou le canal Conda SMP, consultez la liste suivante et choisissez la Région AWS correspondant à la vôtre, puis mettez à jour l’URI d’image ou l’URL de canal en conséquence.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Types d’instance pris en charge

SMP v2 requiert l’un des types d’instances de ML suivants.

Type d’instance
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

Astuce

À partir de SMP v2.2.0, qui prend en charge PyTorch v2.2.0 et versions ultérieures, l’Entraînement de précision mixte avec des FP8 instances P5 à l'aide de Transformer Engine est disponible.

Pour les spécifications des types d’instances de machine learning SageMaker en général, consultez la section Calcul accéléré sur la page Types d’instances Amazon EC2. Pour en savoir plus sur la tarification des instances, consultez Tarification d’Amazon SageMaker AI.

Si vous rencontrez un message d’erreur semblable au suivant, suivez les instructions de la section Demande d’augmentation de quota dans le Guide de l’utilisateur AWS Service Quotas.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Concepts de parallélisme des modèles

Utilisation de SMP v2