Ejecución del entrenamiento distribuido en un clúster heterogéneo en Amazon SageMaker AI

Mediante el argumento distribution de la clase de estimador de SageMaker AI, puede asignar un grupo de instancias específico para ejecutar un entrenamiento distribuido. Por ejemplo, supongamos que tiene los dos grupos de instancias siguientes y quiere ejecutar un entrenamiento con varias GPU en uno de ellos.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

Puede establecer la configuración de entrenamiento distribuido para uno de los grupos de instancias. Por ejemplo, en los siguientes ejemplos de código se muestra cómo asignar training_group_2 con dos instancias de ml.p3dn.24xlarge a la configuración de entrenamiento distribuido.

nota

Actualmente, solo se puede especificar un grupo de instancias de un clúster heterogéneo en la configuración de distribución.

Con MPI

Con la biblioteca paralela de datos de SageMaker AI

nota

Cuando utilice la biblioteca paralela de datos de SageMaker AI, asegúrese de que el grupo de instancias esté formado por los tipos de instancias compatibles con la biblioteca.

Para obtener más información sobre la biblioteca paralela de datos de SageMaker AI, consulte SageMaker AI Data Parallel Training.

Con la biblioteca paralela de modelos de SageMaker AI

Para obtener más información sobre la biblioteca paralela de modelos de SageMaker AI, consulte SageMaker AI Model Parallel Training.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configuración de un trabajo de entrenamiento con un clúster heterogéneo en Amazon SageMaker AI

Modificación del script de entrenamiento para asignar grupos de instancias