Aggiornamento della configurazione di un cluster SageMaker HyperPod - Amazon SageMaker AI

Aggiornamento della configurazione di un cluster SageMaker HyperPod

Esegui update-cluster per aggiornare la configurazione di un cluster.

Nota

Considerazioni importanti:

  • Non puoi modificare le informazioni sul cluster EKS a cui è associato il cluster HyperPod dopo la creazione del cluster.

  • Se sul cluster sono in esecuzione controlli dell’integrità approfonditi, questa API non funzionerà come previsto. Potrebbe essere visualizzato un messaggio di errore che indica che sono in corso controlli dell’integrità approfonditi. Per aggiornare il cluster, è necessario attendere il completamento dei controlli dell’integrità approfonditi.

  1. Crea un file di richiesta API UpdateCluster in formato JSON. Assicurati di specificare correttamente il nome del cluster e il nome del gruppo di istanze da aggiornare. Per ogni gruppo di istanze, puoi modificare il tipo di istanza, il numero di istanze, lo script del punto di ingresso della configurazione del ciclo di vita e il percorso dello script.

    Nota

    Puoi utilizzare UpdateCluster per ridurre verticalmente o rimuovere interi gruppi di istanze dal cluster SageMaker HyperPod. Per ulteriori istruzioni su come ridurre verticalmente o eliminare i gruppi di istanze, consulta Riduzione verticale di un cluster SageMaker HyperPod.

    1. Per ClusterName, specifica il nome del cluster da aggiornare.

    2. Per InstanceGroupName

      1. Per aggiornare un gruppo di istanze esistente, specifica il nome del gruppo di istanze da aggiornare.

      2. Per aggiungere un nuovo gruppo di istanze, specifica un nuovo nome non presente nel cluster.

    3. Per InstanceType

      1. Per aggiornare un gruppo di istanze esistente, è necessario che il tipo di istanza specificato all’inizio corrisponda al gruppo.

      2. Per aggiungere un nuovo gruppo di istanze, specifica il tipo di istanza con cui configurare il gruppo.

    4. Per InstanceCount

      1. Per aggiornare un gruppo di istanze esistente, specifica un numero intero corrispondente al numero di istanze desiderato. Puoi fornire un valore più alto o più basso (fino a 0) per aumentare o ridurre verticalmente il gruppo di istanze.

      2. Per aggiungere un nuovo gruppo di istanze, specifica un numero intero maggiore o uguale a 1.

    5. In LifeCycleConfig, puoi modificare entrambi i valori SourceS3Uri e OnCreate secondo le tue preferenze per aggiornare il gruppo di istanze.

    6. Per ExecutionRole

      1. Per aggiornare un gruppo di istanze esistente, continua a utilizzare lo stesso ruolo IAM collegato durante la creazione del cluster.

      2. Per aggiungere un nuovo gruppo di istanze, specifica un ruolo IAM da collegare.

    7. Per ThreadsPerCore

      1. Per aggiornare un gruppo di istanze esistente, continua a utilizzare lo stesso valore specificato durante la creazione del cluster.

      2. Per aggiungere un nuovo gruppo di istanze, puoi scegliere qualsiasi valore tra le opzioni consentite dal tipo di istanza. Per ulteriori informazioni, cerca il tipo di istanza e consulta la colonna Thread validi per core nella tabella di riferimento in CPU cores and threads per CPU core per instance type in Amazon EC2 User Guide.

    8. Per OnStartDeepHealthChecks, aggiungi InstanceStress e InstanceConnectivity per abilitare Controlli dell’integrità approfonditi.

    9. Per NodeRecovery, specifica Automatic per abilitare il ripristino automatico dei nodi. SageMaker HyperPod sostituisce o riavvia le istanze (nodi) quando l’agente di monitoraggio dell’integrità rileva problemi.

    Puoi utilizzare il frammento di codice seguente, che corrisponde a un modello di file di richiesta JSON. Per ulteriori informazioni sulla sintassi e i parametri della richiesta di questa API, consulta la documentazione di riferimento dell’API per UpdateCluster.

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. Esegui il comando update-cluster per inviare la richiesta.

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json