Habilitación de puntos de comprobación - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilitación de puntos de comprobación

Tras activar los puntos de control, SageMaker AI guarda los puntos de control en Amazon S3 y sincroniza el trabajo de entrenamiento con el bucket de puntos de control S3. Puede usar buckets de S3 de uso general o de directorios de S3 para el bucket de S3 de puntos de comprobación.

Diagrama de arquitectura en el que se escriben los puntos de control durante el entrenamiento.

En el siguiente ejemplo se muestra cómo configurar las rutas de los puntos de control al construir un estimador de SageMaker AI. Para activar los puntos de control, añada los parámetros checkpoint_s3_uri y checkpoint_local_path a su estimador.

La siguiente plantilla de ejemplo muestra cómo crear un estimador de SageMaker AI genérico y habilitar los puntos de control. Puede utilizar esta plantilla para los algoritmos compatibles especificando el parámetro image_uri. Para encontrar los URI de imágenes de Docker para algoritmos con puntos de control compatibles con SageMaker AI, consulte Rutas de Docker Registry y código de ejemplo. También puede sustituir estimator y Estimator por las clases principales y estimadoras de otros marcos de trabajo de SageMaker AI, como TensorFlow, PyTorch, MXNet, HuggingFace y XGBoost.

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Los dos parámetros siguientes especifican las rutas para los puntos de control:

  • checkpoint_local_path — Especifique la ruta local en la que el modelo guarda los puntos de control periódicamente en un contenedor de entrenamiento. El valor predeterminado se establece en '/opt/ml/checkpoints'. Si va a utilizar otros marcos o va a traer su propio contenedor de entrenamiento, asegúrese de que la configuración de puntos de control de su script de entrenamiento especifique la ruta a '/opt/ml/checkpoints'.

    nota

    Recomendamos especificar las rutas locales como '/opt/ml/checkpoints' para que sean coherentes con la configuración predeterminada de los puntos de control de SageMaker AI. Si prefiere especificar su propia ruta local, asegúrese de hacer coincidir la ruta para guardar los puntos de control de su script de entrenamiento y el parámetro checkpoint_local_path de los estimadores de SageMaker AI.

  • checkpoint_s3_uri — El URI de un bucket de S3 donde se almacenan los puntos de control en tiempo real. Puede especificar un bucket de uso general de S3 o de directorios de S3 para almacenar los puntos de comprobación. Para obtener más información sobre los buckets de directorios de S3, consulte Descripción general de los buckets de directorio en la Guía del usuario de Amazon Simple Storage Service.

Para obtener una lista completa de los parámetros del estimador de SageMaker AI, consulte la API Estimator en la documentación de Amazon SageMaker Python SDK.