Ripresa dell’addestramento da un checkpoint - Amazon SageMaker AI

Ripresa dell’addestramento da un checkpoint

Per riprendere un processo di addestramento da un checkpoint, esegui un nuovo strumento di valutazione con lo stesso checkpoint_s3_uri che hai creato nella sezione Abilitazione del checkpointing. Una volta ripreso l'addestramento, i checkpoint di questo bucket S3 vengono ripristinati in checkpoint_local_path in ogni istanza del nuovo processo di addestramento. Verifica che il bucket S3 si trovi nella stessa Regione della sessione SageMaker AI corrente.

Diagramma dell'architettura della sincronizzazione dei checkpoint per la ripresa dell'addestramento.