Ejecutar un trabajo de entrenamiento distribuido de SageMaker con paralelismo de modelos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecutar un trabajo de entrenamiento distribuido de SageMaker con paralelismo de modelos

Aprenda a ejecutar un trabajo de entrenamiento distribuido de paralelismo de modelos mediante el SageMaker Python SDK con su biblioteca de paralelismo de modelos de SageMaker.

Existen tres escenarios de casos de uso para ejecutar un trabajo de entrenamiento de SageMaker:

  1. Puede usar uno de los contenedores de aprendizaje profundo de AWS prediseñados para TensorFlow y PyTorch. Le recomendamos esta opción si es la primera vez que utiliza la biblioteca de paralelismo de modelos. Para encontrar un tutorial sobre cómo ejecutar un trabajo de entrenamiento de paralelismo de modelos de SageMaker, consulte los cuadernos de ejemplo en el entrenamiento de PyTorch con la biblioteca de paralelismo de modelos de Amazon SageMaker AI.

  2. Puede personalizar estos contenedores prediseñados o ampliarlos para gestionar requisitos funcionales adicionales para su algoritmo o modelo que la imagen de Docker de SageMaker no admite. Para ver un ejemplo de cómo ampliar un contenedor prediseñado, consulte Ampliar una contenedor precompilado.

  3. Puede adaptar su propio contenedor de Docker para que funcione con SageMaker AI mediante el Kit de herramientas de entrenamiento de SageMaker. Para ver un ejemplo, consulte Adaptación de su propio contenedor de entrenamiento.

Para ver las opciones 2 y 3 de la lista anterior, consulte Ampliar un contenedor de Docker que contiene la biblioteca de paralelismo de modelos distribuidos de SageMaker para obtener información sobre cómo instalar la biblioteca de paralelismo de modelos en un contenedor de Docker ampliado o personalizado.

En todos los casos, usted inicia el trabajo de entrenamiento configurando un estimador TensorFlow o PyTorch de SageMaker para inicializar la biblioteca. Para obtener más información, consulte los temas siguientes.