Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Inicialización de trabajos de entrenamiento distribuido con SMDDP mediante el SageMaker Python SDK
Para ejecutar un trabajo de entrenamiento distribuido con el script adaptado de Adaptación del script de entrenamiento para utilizar las operaciones colectivas de SMDDP, utilice estimadores de marco o genéricos del SageMaker Python SDK especificando el script de entrenamiento preparado como script de punto de entrada y la configuración de entrenamiento distribuido.
En esta página se explica cómo utilizar el SageMaker AI Python SDK
-
Si quiere lograr una rápida adopción de su trabajo de entrenamiento distribuido en SageMaker AI, configure una clase de estimador de marco PyTorch
o TensorFlow de SageMaker AI. El estimador de marco recoge tu script de entrenamiento y automáticamente coincide con el URI de imagen correcto de los contenedores de aprendizaje profundo (DLC) de PyTorch o TensorFlow prediseñados , dado el valor especificado en el parámetro framework_version. -
Si desea ampliar uno de los contenedores prediseñados o crear un contenedor personalizado para crear su propio entorno de machine learning con SageMaker AI, utilice la clase
Estimatorgenérica de SageMaker AI y especifique el URI de imagen del contenedor de Docker personalizado alojado en su Amazon Elastic Container Registry (Amazon ECR).
Sus conjuntos de datos de entrenamiento deben almacenarse en Amazon S3 o Amazon FSx para Lustre en el Región de AWS en el que estás iniciando tu trabajo de entrenamiento. Si usa cuadernos de Jupyter, debería tener una instancia de cuaderno de SageMaker o una aplicación de SageMaker Studio Classic ejecutándose en el mismo Región de AWS. Para obtener más información sobre cómo almacenar sus datos de entrenamiento, consulte la documentación de entradas de datos SageMaker Python SDK
sugerencia
Le recomendamos que use Amazon FSx para Lustre en lugar de Amazon S3 para mejorar el rendimiento de los entrenamientos. Amazon FSx tiene un rendimiento mayor y una latencia menor que Amazon S3.
sugerencia
Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC de forma que permita que todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar reglas de grupo de seguridad, consulte Paso 1: preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.
Seleccione uno de los siguientes temas para obtener instrucciones sobre cómo ejecutar un trabajo de entrenamiento distribuido de su script de entrenamiento. Una vez haya iniciado un trabajo de entrenamiento, podrá supervisar la utilización del sistema y el rendimiento del modelo mediante Amazon SageMaker Debugger o Amazon CloudWatch.
Siga las instrucciones de los siguientes temas para obtener más información sobre los detalles técnicos, pero también le recomendamos que pruebe Ejemplos de la biblioteca de paralelismo de datos de Amazon SageMaker AI para empezar.