Managed Spot Training in Amazon SageMaker AI
Amazon SageMaker AI semplifica l’addestramento di modelli di machine learning utilizzando istanze Spot gestite di Amazon EC2. Managed Spot Training è in grado di ottimizzare il costo dei modelli di addestramento fino al 90% rispetto alle istanze on demand. SageMaker AI gestisce le interruzioni Spot per tuo conto.
Managed Spot Training utilizza l'istanza Spot Amazon EC2 per eseguire processi di addestramento anziché istanze on demand. Puoi specificare quali job di addestramento utilizzano istanze Spot e una condizione di arresto che indica per quanto tempo SageMaker AI attende l’esecuzione di un job con le istanze Spot di Amazon EC2. I parametri e i log generati durante le sessioni di addestramento sono disponibili in CloudWatch.
L’ottimizzazione automatica dei modelli di Amazon SageMaker AI, nota anche come ottimizzazione degli iperparametri, può utilizzare l’addestramento spot gestito. Per ulteriori informazioni sull’ottimizzazione automatica dei modelli, consulta Ottimizzazione automatica dei modelli con SageMaker AI.
Le istanze Spot possono essere interrotte, causando un aumento del tempo richiesto per avviare o terminare i processi. Puoi configurare il tuo processo di addestramento spot gestito in loco gestito in modo da utilizzare i checkpoint. SageMaker AI copia i dati dei checkpoint da un percorso locale su Amazon S3. Quando il processo viene riavviato, SageMaker AI copia nuovamente i dati da Amazon S3 nel percorso locale. Il processo di addestramento può quindi riprendere dall'ultimo checkpoint anziché essere riavviato. Per ulteriori informazioni sulla creazione di checkpoint, consulta Checkpoint in Amazon SageMaker AI.
Nota
A meno che il processo di addestramento non venga completato rapidamente, ti consigliamo di creare checkpoint con Managed Spot Training. Gli algoritmi integrati SageMaker AI e gli algoritmi marketplace che non eseguono checkpoint sono attualmente limitati a un MaxWaitTimeInSeconds di 3600 secondi (60 minuti).
Per utilizzare Managed Spot Training, crea un processo di addestramento. Imposta EnableManagedSpotTraining su True e specifica MaxWaitTimeInSeconds. MaxWaitTimeInSeconds deve essere maggiore di MaxRuntimeInSeconds. Per ulteriori informazioni sulla creazione di un processo di addestramento, consulta DescrizioneTrainingJob.
Puoi calcolare i risparmi derivanti dall'utilizzo di Managed Spot Training utilizzando la formula (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Ad esempio, se BillableTimeInSeconds è 100 e TrainingTimeInSeconds è 500, significa che il processo di addestramento è durato 500 secondi, ma ti sono stati fatturati solo 100 secondi. Il tuo risparmio è di (1 - (100/ 500)) * 100 = 80%.
Per scoprire come eseguire job di addestramento sulle istanze spot di Amazon SageMaker AI e come l’addestramento spot gestito funziona e riduce il tempo fatturabile, consulta i seguenti notebook di esempio: