Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puntos de comprobación en Amazon SageMaker AI
Utilice los puntos de control de Amazon SageMaker AI para guardar el estado de los modelos de machine learning (ML) durante el entrenamiento. Los puntos de control son instantáneas del modelo y se pueden configurar mediante las funciones de devolución de llamadas de los marcos de ML. Puede utilizar los puntos de control guardados para reiniciar un trabajo de entrenamiento desde el último punto de control guardado.
Con los puntos de control, puede hacer lo siguiente:
-
Guarde las instantáneas de sus modelos durante el entrenamiento por una interrupción inesperada del trabajo o instancia de entrenamiento.
-
Reanude el entrenamiento del modelo en el futuro desde un punto de control.
-
Analice el modelo en las etapas intermedias de entrenamiento.
-
Utilice puntos de comprobación con S3 Express One Zone para aumentar las velocidades de acceso.
-
Utilice los puntos de control con el entrenamiento de spot administrado por SageMaker AI para ahorrar costos de entrenamiento.
El mecanismo de entrenamiento de Sagemaker utiliza contenedores de entrenamiento en las instancias de Amazon EC2 y los archivos de puntos de control se guardan en un directorio local de contenedores (el valor predeterminado es /opt/ml/checkpoints). SageMaker AI proporciona la funcionalidad de copiar los puntos de comprobación de la ruta local a Amazon S3 y sincroniza automáticamente los puntos de comprobación de ese directorio con S3. Los puntos de control existentes en S3 se escriben en el contenedor de SageMaker AI al inicio del trabajo, lo que permite que los trabajos se reanuden desde un punto de control. Los puntos de control que se añaden a la carpeta S3 una vez iniciado el trabajo no se copian en el contenedor de entrenamiento. SageMaker AI también escribe nuevos puntos de control desde el contenedor en S3 durante el entrenamiento. Si se elimina un punto de control en el contenedor de SageMaker AI, también se eliminará en la carpeta S3.
Puede utilizar puntos de comprobación en Amazon SageMaker AI con la clase de almacenamiento Amazon S3 Express One Zone (S3 Express One Zone) para acceder con mayor rapidez a los puntos de comprobación. Al habilitar los puntos de comprobación y especificar el URI de S3 para el destino de almacenamiento del punto de comprobación, puede proporcionar un URI de S3 para una carpeta de un bucket de uso general de S3 o de un bucket de directorios de S3. Los buckets de directorio de S3 que están integrados con SageMaker AI solo se pueden cifrar con cifrado del servidor con claves administradas de Amazon S3 (SSE-S3). No se admite el cifrado del servidor con claves de AWS KMS (SSE-KMS). Para obtener más información sobre S3 Express One Zone y los buckets de directorios de S3, consulte Buckets de directorio y S3 Express One Zone.
Si utiliza puntos de control con un entrenamiento de spot administrado por SageMaker AI, SageMaker AI se encarga de poner puntos de control al entrenamiento de su modelo en una instancia de spot y reanudar el trabajo de entrenamiento en la siguiente instancia de spot. Con el entrenamiento de spot administrado por SageMaker AI, puede reducir considerablemente el tiempo facturable para el entrenamiento de modelos de ML. Para obtener más información, consulte Entrenamiento de spot administrado en Amazon SageMaker AI.
Temas
Puntos de comprobación para marcos y algoritmos en SageMaker AI
Utilice los puntos de control para guardar instantáneas de los modelos de ML creados en sus marcos preferidos en SageMaker AI.
Marcos y algoritmos de SageMaker AI que admiten puntos de control
SageMaker AI admite puntos de control para AWS Containers de aprendizaje profundo y un subconjunto de algoritmos integrados sin necesidad de cambiar el script de entrenamiento. SageMaker AI guarda los puntos de control en la ruta local predeterminada '/opt/ml/checkpoints' y los copia en Amazon S3.
-
Contenedores de aprendizaje profundo: TensorFlow
, PyTorch , MXNet y HuggingFace nota
Si utiliza el estimador de marco de HuggingFace, debe especificar la ruta de salida de un punto de control mediante hiperparámetros. Para obtener más información, consulte Run training on Amazon SageMaker AI
en la documentación de HuggingFace. -
Algoritmos integrados: Clasificación de imágenes, Detección de objetos, Segmentación semántica y XGBoost (0,90-1 o posterior)
nota
Si utiliza el algoritmo XGBoost en modo marco (modo script), necesita traer un script de entrenamiento de XGBoost con puntos de control que se configure manualmente. Para obtener más información sobre los métodos de entrenamiento de XGBoost para guardar instantáneas de modelos, consulte Entrenamiento de XGBoost
en la documentación del SDK de XGBoost Python.
Si se utiliza un algoritmo prediseñado que no admite puntos de control en un trabajo de entrenamiento de spot administrado, SageMaker AI no permite un tiempo máximo de espera superior a una hora para el trabajo a fin de limitar el tiempo de entrenamiento desperdiciado por las interrupciones.
Para contenedores de entrenamiento personalizados y otros marcos
Si utiliza sus propios contenedores de entrenamiento, scripts de entrenamiento u otros marcos de trabajo que no figuran en la sección anterior, debe configurarlo correctamente mediante devoluciones de llamadas o API de entrenamiento para guardar los puntos de control en la ruta local ('/opt/ml/checkpoints') y cargarlos desde la ruta local en su script de entrenamiento. Los estimadores de SageMaker AI pueden sincronizarse con la ruta local y guardar los puntos de control en Amazon S3.
Aspectos que hay que tener en cuenta a la hora de establecer puntos de comprobación
Tenga en cuenta lo siguiente al utilizar puntos de control en SageMaker AI.
-
Para evitar sobrescribir en un entrenamiento distribuido con varias instancias, debe configurar manualmente los nombres y las rutas de los archivos de puntos de control en su script de entrenamiento. La configuración de puntos de control de alto nivel de SageMaker AI especifica una única ubicación de Amazon S3 sin sufijos ni prefijos adicionales para etiquetar puntos de control de varias instancias.
-
El SDK de SageMaker Python no admite una configuración de alto nivel para la frecuencia de los puntos de control. Para controlar la frecuencia de los puntos de control, modifique el script de entrenamiento mediante las funciones de guardado del modelo o las llamadas de puntos de control del marco.
-
Si utiliza los puntos de control de SageMaker AI con SageMaker Debugger y SageMaker AI distribuidos y tiene problemas, consulte las siguientes páginas para obtener más información sobre solución de problemas y aspectos a tener en cuenta.