Marcos admitidos Regiones de AWS Tipos de instancias admitidas

Marcos y Regiones de AWS compatibles

Antes de utilizar la biblioteca de paralelismo de modelos de SageMaker (SMP v2), compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta de AWS y en Región de AWS.

nota

Para ver las últimas actualizaciones y notas de la versión de la biblioteca, consulte Notas de la versión de la biblioteca de paralelismo de modelos de SageMaker.

Marcos admitidos

SMP v2 es compatible con los siguientes marcos de aprendizaje profundo y está disponible a través de contenedores de Docker de SMP y un canal Conda de SMP. Cuando usa la clase de estimador de marco en el SageMaker Python SDK y especifica la configuración de distribución para usar SMP v2, SageMaker AI selecciona automáticamente los contenedores de Docker de SMP. Para utilizar SMP v2, le recomendamos que mantenga siempre actualizado el SageMaker Python SDK en el entorno de desarrollo.

Versiones de PyTorch compatibles la biblioteca de paralelismo de modelos de SageMaker

Versión PyTorch	Versión de la biblioteca de paralelismo de modelos de SageMaker	URI de imagen de Docker de SMP	URI de imagen de Enroot de SMP
v2.5.1	`smdistributed-modelparallel==v2.8.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh`
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/A
	`smdistributed-modelparallel==v2.6.0`		N/A
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/A
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/A
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/A
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/A
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/A
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/A

Canal Conda de SMP

El siguiente bucket de Amazon S3 es el canal de Conda público alojado por el equipo de servicio de SMP. Si desea instalar la biblioteca de SMP v2 en un entorno como los clústeres de SageMaker HyperPod, utilice este canal de Conda para instalar correctamente la biblioteca de SMP.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

nota

Para buscar versiones anteriores de la biblioteca de SMP v1.x y los DLC preempaquetados, consulte Marcos admitidos en la documentación de SMP v1.

Uso de SMP v2 con bibliotecas de código abierto

La biblioteca de SMP v2 funciona con otras bibliotecas de código abierto basadas en PyTorch, como PyTorch Lightning, Hugging Face Transformers y Hugging Face Accelerate, porque SMP v2 es compatible con las API PyTorch FSDP. Si tiene más preguntas sobre el uso de la biblioteca de SMP con otras bibliotecas de terceros, póngase en contacto con el equipo de servicio de SMP en sm-model-parallel-feedback@amazon.com.

Regiones de AWS

SMP v2 está disponible en las siguientes Regiones de AWS. Si desea usar los URI de imagen de Docker de SMP o el canal Conda de SMP, consulte la siguiente lista y elija la Región de AWS que coincida con la suya y actualice el URI de imagen o la URL del canal en consecuencia.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Tipos de instancias admitidas

SMP v2 requiere uno de los siguientes tipos de instancias de ML.

Tipo de instancia
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

sugerencia

A partir de SMP v2.2.0 compatible con PyTorch v2.2.0 y versiones posteriores, está disponible Entrenamiento de precisión mixto con FP8 instancias P5 que utilizan Transformer Engine.

Para ver las especificaciones de los tipos de instancias de machine learning de SageMaker, consulte la sección Computación acelerada en la página Tipos de instancias de Amazon EC2. Para obtener información acerca de los precios de las instancias, consulte Precios de Amazon SageMaker AI.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitud de aumento de cuota en la Guía del usuario de AWSService Quotas.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conceptos de paralelismo de modelos

Utilice la SMP v2