Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riparazioni del cluster a seguito di errori della GPU
Se stai eseguendo su una GPU un job di addestramento che ha esito negativo, SageMaker AI eseguirà un controllo dell’integrità della GPU per vedere se l’errore è correlato a un suo problema. SageMaker AI effettua le seguenti azioni in base ai risultati del controllo dell’integrità:
Se l’errore è recuperabile e può essere risolto riavviando l’istanza o reimpostando la GPU, SageMaker AI riavvierà l’istanza.
Se l’errore non è recuperabile ed è causato da una GPU che deve essere sostituita, SageMaker AI sostituirà l’istanza.
L’istanza viene sostituita o riavviata nell’ambito di un processo di riparazione del cluster di SageMaker AI. Durante questo processo, nello stato del job di addestramento viene visualizzato il seguente messaggio:
Repairing training cluster due to hardware failure
SageMaker AI tenterà di riparare il cluster fino a 10 volte. Se la riparazione del cluster ha esito positivo, SageMaker AI riavvierà automaticamente il job di addestramento dal checkpoint precedente. Se la riparazione del cluster non riesce, anche il job di addestramento avrà esito negativo. Il processo di riparazione del cluster non viene fatturato. Le riparazioni dei cluster vengono avviate solo se il job di addestramento ha esito negativo. Se viene rilevato un problema relativo alla GPU per un cluster warmpool, il cluster entrerà in modalità di riparazione per riavviare o sostituire l’istanza difettosa. Dopo la riparazione, il cluster può ancora essere utilizzato come cluster warmpool.
Il processo di riparazione di cluster e istanze descritto in precedenza è illustrato nel diagramma seguente: