Creazione di un cluster SageMaker HyperPod con orchestrazione Amazon EKS
Il tutorial seguente dimostra come creare un nuovo cluster SageMaker HyperPod e configurarlo con l’orchestrazione Amazon EKS tramite l’interfaccia utente della console SageMaker AI.
In questo argomento:
Creazione di un cluster
Segui questa procedura per accedere alla pagina Cluster SageMaker HyperPod e scegliere l’orchestrazione Amazon EKS.
Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/
. -
Scegli Cluster HyperPod nel riquadro di navigazione a sinistra, quindi seleziona Gestione dei cluster.
-
Nella pagina Cluster SageMaker HyperPod, seleziona Crea un cluster HyperPod.
-
Nell’elenco a discesa Crea un cluster HyperPod scegli Orchestrato da Amazon EKS.
-
Nella pagina di creazione del cluster EKS, scegli l’opzione più adatta alle tue esigenze scegliendo tra le due disponibili.
-
Configurazione rapida: per iniziare subito con le impostazioni predefinite, scegli Configurazione rapida. Con questa opzione, SageMaker AI creerà nuove risorse come VPC, sottoreti, gruppi di sicurezza, bucket Amazon S3, ruolo IAM e FSx per Lustre nel processo di creazione del cluster.
-
Configurazione personalizzata: per l’integrazione con le risorse AWS esistenti o per soddisfare requisiti di rete, sicurezza o archiviazione specifici, scegli Configurazione personalizzata. Con questa opzione, puoi scegliere di utilizzare le risorse esistenti o crearne di nuove e puoi personalizzare la configurazione in base alle tue esigenze.
-
Nella sezione Configurazione rapida, segui questa procedura per creare il cluster HyperPod con l’orchestrazione Amazon EKS.
Impostazioni generali
Specifica un nome per il nuovo cluster. Dopo la creazione del cluster, non è più possibile modificarne il nome.
Gruppi di istanze
Per aggiungere un gruppo di istanze, scegli Aggiungi gruppo. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per implementare un cluster, devi aggiungere almeno un gruppo di istanze. Segui questa procedura per aggiungere un gruppo di istanze.
-
In Tipo di gruppo di istanze, scegli Standard o Gruppo di istanze limitato (RIG). Di solito si sceglie Standard perché fornisce un ambiente di calcolo generico senza limitazioni di sicurezza aggiuntive. Gruppo di istanze limitato (RIG) è un ambiente specializzato per la personalizzazione di modelli di fondazione come Amazon Nova. Per ulteriori informazioni sulla configurazione di RIG per la personalizzazione dei modelli Amazon Nova, consulta Personalizzazione di Amazon Nova su Amazon SageMaker HyperPod.
-
In Nome, specifica un nome per il gruppo di istanze.
-
In Capacità dell’istanza, scegli la capacità on demand o un piano di addestramento per riservare le tue risorse di calcolo.
-
Per Tipo di istanza, scegli l’istanza per il gruppo di istanze.
Importante
Assicurati di selezionare un tipo di istanza con quote sufficienti e un numero adeguato di indirizzi IP non assegnati per il tuo account. Per visualizzare o richiedere quote aggiuntive, consulta Quote di SageMaker HyperPod.
-
In Quantità istanze. specifica un numero intero che non sia maggiore della quota dell’istanza per l’utilizzo del cluster. Per questo tutorial, inserisci 1 per tutti e tre i gruppi.
-
In Zona di disponibilità di destinazione, scegli la zona di disponibilità in cui allocare le istanze. La zona di disponibilità deve corrispondere alla posizione della capacità di calcolo accelerata.
-
Per Volume di archiviazione aggiuntivo per istanza (GB) (facoltativo), specifica un numero intero compreso tra 1 e 16.384 per impostare la dimensione di un volume Elastic Block Store (EBS) aggiuntivo in gigabyte (GB). Il volume EBS è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il volume EBS aggiuntivo è
/opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile accedere tramite SSH alle istanze del cluster (nodi) e verificare che il volume EBS sia montato correttamente eseguendo il comandodf -h. Il collegamento di un volume EBS aggiuntivo fornisce un’archiviazione stabile, fuori istanza e con persistenza indipendente, come descritto nella sezione Amazon EBS volumes in Amazon Elastic Block Store User Guide. -
Per Controlli approfonditi dell’integrità delle istanze, scegli un’opzione. I controlli dell’integrità approfonditi monitorano l’integrità dell’istanza durante la creazione e dopo gli aggiornamenti software, ripristinando automaticamente le istanze difettose con riavvii o sostituzioni, se abilitati.
-
Scegli Aggiungi gruppo di istanze.
Impostazioni predefinite della configurazione rapida
Questa sezione elenca tutte le impostazioni predefinite per la creazione del cluster, incluse tutte le nuove risorse AWS che verranno create durante il processo. Verificare le impostazioni predefinite.
Nella sezione Configurazione personalizzata, segui questa procedura per creare il tuo primo cluster HyperPod con l’orchestrazione Amazon EKS.
Impostazioni generali
Specifica un nome per il nuovo cluster. Dopo la creazione del cluster, non è più possibile modificarne il nome.
In Ripristino dell’istanza, scegli Automatico (consigliato) o Nessuno.
Rete
Configura le impostazioni di rete all’interno del cluster e per le comunicazioni da e verso il cluster. Per l’orchestrazione del cluster SageMaker HyperPod con Amazon EKS, il VPC viene impostato automaticamente su quello già configurato per il cluster EKS selezionato.
-
In VPC, scegli il tuo VPC se ne hai già a cui SageMaker AI può accedere. Per creare un nuovo VPC, segui le istruzioni in Create a VPC in Amazon Virtual Private Cloud User Guide. Puoi lasciarlo impostato su Nessuno per utilizzare il VPC SageMaker AI predefinito.
-
Per l’intervallo CIDR IPv4 del VPC, inserisci l’IP iniziale del tuo VPC.
-
In Zone di disponibilità, scegli le zone di disponibilità (AZ) in cui HyperPod creerà le sottoreti per il tuo cluster. Scegli le AZ che corrispondono alla posizione della tua capacità di calcolo accelerata.
-
In Gruppi di sicurezza, scegli gruppi di sicurezza collegati al cluster Amazon EKS o il cui traffico in entrata è consentito dal gruppo di sicurezza associato al cluster Amazon EKS. Per creare nuovi gruppi di sicurezza, vai alla console di Amazon VPC.
Orchestrazione
Segui questa procedura per creare o selezionare un cluster Amazon EKS da utilizzare come orchestratore.
-
In Cluster EKS, scegli di creare un nuovo cluster Amazon EKS o di utilizzarne uno esistente.
Se devi creare un nuovo cluster EKS, puoi farlo dalla sezione del cluster EKS senza dover aprire la console di Amazon EKS.
Nota
La sottorete VPC che scegli per HyperPod deve essere privata.
Dopo aver inviato una nuova richiesta di creazione di un cluster EKS, attendi che il cluster EKS diventi
Active. -
In Versione Kubernetes, scegli una versione dal menu a discesa. Per ulteriori informazioni sulle versioni di Kubernetes, consulta Understand the Kubernetes version lifecycle on EKS in Amazon EKS User Guide.
-
In Operatori, scegli Usa grafici e componenti aggiuntivi Helm predefiniti o Non installare operatori. L’opzione predefinita è Usa grafici e componenti aggiuntivi Helm predefiniti, che verrà utilizzata per installare gli operatori sul cluster EKS. Per ulteriori informazioni sui componenti aggiuntivi e i grafici Helm predefiniti, consulta
helm_chartnel repository GitHub. Per ulteriori informazioni, consulta Installazione di pacchetti sul cluster Amazon EKS con Helm. -
In Operatori abilitati, visualizza l’elenco degli operatori abilitati. Per modificare gli operatori, deseleziona la casella in alto e scegli gli operatori da abilitare per il cluster EKS.
Nota
Per utilizzare HyperPod con EKS, è necessario installare i grafici Helm e i componenti aggiuntivi che abilitano gli operatori sul cluster EKS. Questi componenti configurano EKS come piano di controllo (control-plane) per HyperPod e forniscono la configurazione necessaria per la gestione e l’orchestrazione del carico di lavoro.
Gruppi di istanze
Per aggiungere un gruppo di istanze, scegli Aggiungi gruppo. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per implementare un cluster, devi aggiungere almeno un gruppo di istanze. Segui questa procedura per aggiungere un gruppo di istanze.
-
In Tipo di gruppo di istanze, scegli Standard o Gruppo di istanze limitato (RIG). Di solito si sceglie Standard perché fornisce un ambiente di calcolo generico senza limitazioni di sicurezza aggiuntive. Gruppo di istanze limitato (RIG) è un ambiente specializzato per la personalizzazione di modelli di fondazione come Amazon Nova. Per ulteriori informazioni sulla configurazione di RIG per la personalizzazione dei modelli Amazon Nova, consulta Personalizzazione di Amazon Nova su Amazon SageMaker HyperPod.
-
In Nome, specifica un nome per il gruppo di istanze.
-
In Capacità dell’istanza, scegli la capacità on demand o un piano di addestramento per riservare le tue risorse di calcolo.
-
Per Tipo di istanza, scegli l’istanza per il gruppo di istanze.
Importante
Assicurati di selezionare un tipo di istanza con quote sufficienti e un numero adeguato di indirizzi IP non assegnati per il tuo account. Per visualizzare o richiedere quote aggiuntive, consulta Quote di SageMaker HyperPod.
-
In Quantità istanze. specifica un numero intero che non sia maggiore della quota dell’istanza per l’utilizzo del cluster. Per questo tutorial, inserisci 1 per tutti e tre i gruppi.
-
In Zona di disponibilità di destinazione, scegli la zona di disponibilità in cui allocare le istanze. La zona di disponibilità deve corrispondere alla posizione della capacità di calcolo accelerata.
-
Per Volume di archiviazione aggiuntivo per istanza (GB) (facoltativo), specifica un numero intero compreso tra 1 e 16.384 per impostare la dimensione di un volume Elastic Block Store (EBS) aggiuntivo in gigabyte (GB). Il volume EBS è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il volume EBS aggiuntivo è
/opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile accedere tramite SSH alle istanze del cluster (nodi) e verificare che il volume EBS sia montato correttamente eseguendo il comandodf -h. Il collegamento di un volume EBS aggiuntivo fornisce un’archiviazione stabile, fuori istanza e con persistenza indipendente, come descritto nella sezione Amazon EBS volumes in Amazon Elastic Block Store User Guide. -
Per Controlli approfonditi dell’integrità delle istanze, scegli un’opzione. I controlli dell’integrità approfonditi monitorano l’integrità dell’istanza durante la creazione e dopo gli aggiornamenti software, ripristinando automaticamente le istanze difettose con riavvii o sostituzioni, se abilitati. Per ulteriori informazioni, consulta Controlli dell’integrità approfonditi
-
Scegli Aggiungi gruppo di istanze.
Script del ciclo di vita
Puoi scegliere di utilizzare gli script del ciclo di vita predefiniti o quelli personalizzati, che verranno archiviati nel tuo bucket Amazon S3. Puoi visualizzare gli script del ciclo di vita predefiniti nel repository GitHub Awesome Distributed Training
-
In Script del ciclo di vita, scegli tra script del ciclo di vita predefiniti o personalizzati.
-
In Bucket S3 per gli script del ciclo di vita, scegli se creare un nuovo bucket o utilizzare un bucket esistente per archiviare gli script del ciclo di vita.
Autorizzazioni
Scegli o crea un ruolo IAM che consente a HyperPod di eseguire e accedere alle risorse AWS necessarie al posto tuo. Per ulteriori informazioni, consulta Ruolo IAM per SageMaker HyperPod.
Storage
Configura il file system FSx per Lustre da allocare sul cluster HyperPod.
-
In File system, scegli un file system FSx per Lustre esistente per creare un nuovo file system FSx per Lustre oppure non allocare un file system FSx per Lustre.
-
In Throughput per unità di archiviazione, scegli il throughput che sarà disponibile per ogni TiB di archiviazione allocata.
-
In Capacità di archiviazione, inserisci un valore di capacità in TB.
-
In Tipo di compressione dei dati, scegli LZ4 per abilitare la compressione dei dati.
-
In Versione Lustre, visualizza il valore consigliato per i nuovi file system.
Tag (facoltativo)
In Tag (facoltativo), aggiungi coppie chiave-valore al nuovo cluster e gestisci il cluster come una risorsa AWS. Per ulteriori informazioni, consulta Tagging delle risorse AWS.
Distribuzione delle risorse
Dopo aver completato le configurazioni del cluster utilizzando Configurazione rapida o Configurazione personalizzata, scegli l’opzione seguente per avviare il provisioning delle risorse e la creazione del cluster.
-
Invia: SageMaker AI inizia ad allocare le risorse di configurazione predefinite e a creare il cluster.
-
Scarica i parametri del modello CloudFormation: scarica il file JSON dei parametri di configurazione ed esegui il comando della AWS CLI per implementare lo stack CloudFormation per allocare le risorse di configurazione e creare il cluster. Se necessario, puoi modificare il file JSON dei parametri scaricato. Se scegli questa opzione, consulta Creazione di cluster SageMaker HyperPod con modelli CloudFormation per ulteriori informazioni.