Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di un processo di formazione su k8s HyperPod
SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un cluster GPU/Trainium Kubernetes. Prima di inviare il job di addestramento, completa una delle operazioni seguenti:
-
Modifica il file di configurazione del cluster
k8s.yaml -
Sovrascrivi la configurazione del cluster tramite la riga di comando
Dopo aver eseguito una delle fasi precedenti, installa l’ambiente corrispondente.
Configurazione del cluster con k8s.yaml
Per inviare un job di addestramento a un cluster Kubernetes, devi impostare le configurazioni specifiche per Kubernetes. Le configurazioni includono il namespace del cluster o la posizione del volume persistente.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy: puoi specificare la policy pull quando invii un job di addestramento. Se specifichi “Sempre”, il cluster Kubernetes estrae sempre l’immagine dal repository. Per ulteriori informazioni, consulta Image pull policy. -
restartPolicy: specifica se riavviare il job di addestramento se non riesce. -
namespace: puoi specificare il namespace Kubernetes a cui viene inviato il job di addestramento. -
persistent_volume_claims: puoi specificare un volume condiviso per il tuo job di addestramento per consentire a tutti i processi di addestramento di accedere ai file nel volume.