Entrenamiento de spot administrado en Amazon SageMaker AI
Amazon SageMaker AI facilita el entrenamiento de modelos de machine learning mediante instancias de spot de Amazon EC2. El entrenamiento de spot administrado puede optimizar el costo de los modelos de entrenamiento hasta un 90 % con respecto a instancias bajo demanda. SageMaker AI administra las interrupciones de Spot en su nombre.
El entrenamiento de spot administrado usa instancias de Spot de Amazon EC2 para ejecutar trabajos de entrenamiento en lugar de instancias bajo demanda. Puede especificar qué trabajos de entrenamiento utilizan instancias de spot y una condición de parada que especifica cuánto espera SageMaker AI a que se ejecute un trabajo con instancias de Spot de Amazon EC2. Las métricas y los registros generados durante las ejecuciones de entrenamiento están disponibles en CloudWatch.
El ajuste automático de modelos de Amazon SageMaker AI, también conocido como ajuste de hiperparámetros, puede utilizar el entrenamiento de spot administrado. Para obtener más información, consulte Ajuste automático del modelo con SageMaker AI.
Las instancias de Spot se pueden interrumpir, lo que hace que los trabajos tarden más en iniciarse o finalizar. Puede configurar su trabajo de entrenamiento de spot administrado para utilizar puntos de control. SageMaker AI copia los datos de los puntos de control de una ruta local a Amazon S3. Cuando el trabajo se reinicia, SageMaker AI copia los datos de Amazon S3 de nuevo a la ruta local. A continuación, el entrenamiento puede reanudarse desde el último punto de control en lugar de reiniciarse. Para obtener más información sobre los puntos de control, consulte Puntos de comprobación en Amazon SageMaker AI.
nota
A menos que su trabajo de entrenamiento se complete rápidamente, le recomendamos que utilice puntos de control con el entrenamiento de spot administrado. Los algoritmos integrados de SageMaker AI y los algoritmos de mercado que no tienen puntos de control están actualmente limitados a un MaxWaitTimeInSeconds de 3600 segundos (60 minutos).
Para utilizar el entrenamiento de spot administrado, cree un trabajo de entrenamiento. Establezca EnableManagedSpotTraining en True y especifique el MaxWaitTimeInSeconds. MaxWaitTimeInSeconds debe ser mayor que MaxRuntimeInSeconds. Para obtener más información acerca de cómo crear un trabajo de entrenamiento, consulte DescribeTrainingJob.
Puede calcular los ahorros derivados del uso del entrenamiento de spot administrado mediante la fórmula (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Por ejemplo, si BillableTimeInSeconds es 100 y TrainingTimeInSeconds 500, significa que su trabajo de entrenamiento duró 500 segundos, pero se le facturó solo 100 segundos. Sus ahorros son de (1 - (100/500)) * 100 = 80%.
Para saber cómo ejecutar trabajos de entrenamiento en instancias de spot de Amazon SageMaker AI y cómo funciona el entrenamiento de spot administrado y reduce el tiempo facturable, consulte los siguientes cuadernos de ejemplo: