Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Guida introduttiva all' SageMaker HyperPod utilizzo della console SageMaker AI
Il seguente tutorial mostra come creare un nuovo SageMaker HyperPod cluster e configurarlo con Slurm tramite l'interfaccia utente della console SageMaker AI. Seguendo il tutorial, creerai un HyperPod cluster con tre nodi Slurm,, e. my-controller-group my-login-group worker-group-1
Crea un cluster
Per accedere alla pagina SageMaker HyperPod Clusters e scegliere Slurm orchestration, segui questi passaggi.
Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/
. -
Scegli HyperPod Clusters nel riquadro di navigazione a sinistra, quindi Cluster Management.
-
Nella pagina SageMaker HyperPod Cluster, scegli Crea HyperPod cluster.
-
Nel menu a discesa Crea HyperPod cluster, scegli Orchestrated by Slurm.
-
Nella pagina di creazione del cluster Slurm sono disponibili due opzioni. Scegli quella più adatta alle tue esigenze.
-
Configurazione rapida: per iniziare subito con le impostazioni predefinite, scegli Configurazione rapida. Con questa opzione, l' SageMaker IA creerà nuove risorse come VPC, sottoreti, gruppi di sicurezza, bucket Amazon S3, ruolo IAM e FSx for Lustre nel processo di creazione del cluster.
-
Configurazione personalizzata: per l’integrazione con le risorse AWS esistenti o per soddisfare requisiti di rete, sicurezza o archiviazione specifici, scegli Configurazione personalizzata. Con questa opzione, puoi scegliere di utilizzare le risorse esistenti o crearne di nuove e puoi personalizzare la configurazione in base alle tue esigenze.
-
Nella sezione Configurazione rapida, segui questi passaggi per creare il tuo cluster con l'orchestrazione Slurm. HyperPod
Impostazioni generali
Specifica un nome per il nuovo cluster. Dopo la creazione del cluster, non è più possibile modificarne il nome.
Gruppi di istanze
Per aggiungere un gruppo di istanze, scegli Aggiungi gruppo. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per implementare un cluster, devi aggiungere almeno un gruppo di istanze per i tipi di gruppo Controller e Calcolo.
Importante
Puoi aggiungere un gruppo di istanze alla volta. Per creare più gruppi di istanze, ripeti il processo per ogni gruppo.
Segui questa procedura per aggiungere un gruppo di istanze.
-
In Tipo di gruppo di istanze, scegli un tipo per il tuo gruppo di istanze. Per questo tutorial, scegli Controller (head) per
my-controller-group, Login permy-login-groupe Calcolo (worker) perworker-group-1. -
In Nome, specifica un nome per il gruppo di istanze. Per questo tutorial, crea tre gruppi di istanze denominati
my-controller-group,my-login-groupeworker-group-1. -
In Capacità dell’istanza, scegli la capacità on demand o un piano di addestramento per riservare le tue risorse di calcolo.
-
Per Tipo di istanza, scegli l’istanza per il gruppo di istanze. Per questo tutorial, seleziona
ml.c5.xlargepermy-controller-group,ml.m5.4xlargepermy-login-groupeml.trn1.32xlargeperworker-group-1.Importante
Assicurati di selezionare un tipo di istanza con quote sufficienti e un numero adeguato di indirizzi IP non assegnati per il tuo account. Per visualizzare o richiedere quote aggiuntive, consulta SageMaker HyperPod quote.
-
In Quantità istanze. specifica un numero intero che non sia maggiore della quota dell’istanza per l’utilizzo del cluster. Per questo tutorial, inserisci 1 per tutti e tre i gruppi.
-
In Zona di disponibilità di destinazione, scegli la zona di disponibilità in cui allocare le istanze. La zona di disponibilità deve corrispondere alla posizione della capacità di calcolo accelerata.
-
Per Volume di archiviazione aggiuntivo per istanza (GB) (facoltativo), specifica un numero intero compreso tra 1 e 16.384 per impostare la dimensione di un volume Elastic Block Store (EBS) aggiuntivo in gigabyte (GB). Il volume EBS è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il volume EBS aggiuntivo è
/opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile accedere tramite SSH alle istanze del cluster (nodi) e verificare che il volume EBS sia montato correttamente eseguendo il comandodf -h. Il collegamento di un volume EBS aggiuntivo fornisce un’archiviazione stabile, fuori istanza e con persistenza indipendente, come descritto nella sezione Amazon EBS volumes in Amazon Elastic Block Store User Guide. -
Scegli Aggiungi gruppo di istanze.
Impostazioni predefinite della configurazione rapida
Questa sezione elenca tutte le impostazioni predefinite per la creazione del cluster, incluse tutte le nuove AWS risorse che verranno create durante il processo di creazione del cluster. Verificare le impostazioni predefinite.
Nella sezione Configurazione personalizzata, segui questi passaggi per creare il tuo HyperPod cluster con l'orchestrazione Slurm.
Impostazioni generali
Specifica un nome per il nuovo cluster. Dopo la creazione del cluster, non è più possibile modificarne il nome.
In Ripristino dell’istanza, scegli Automatico (consigliato) o Nessuno.
Rete
Configura le impostazioni di rete per la creazione del cluster. Queste impostazioni non possono essere modificate dopo la creazione del cluster.
-
Per quanto riguarda il VPC, scegli il tuo VPC se ne hai già uno che consente all' SageMaker IA di accedere al tuo VPC. Per creare un nuovo VPC, segui le istruzioni in Create a VPC in Amazon Virtual Private Cloud User Guide. Puoi lasciarlo su Nessuno per utilizzare il VPC SageMaker AI predefinito.
-
Per il blocco VPC IPv4 CIDR, inserisci l'IP iniziale del tuo VPC.
-
Per le zone di disponibilità, scegli le zone di disponibilità (AZ) in cui HyperPod verranno create le sottoreti per il tuo cluster. Scegli AZs quella che corrisponde alla posizione della tua capacità di elaborazione accelerata.
-
In Gruppi di sicurezza, crea un gruppo di sicurezza o scegli fino a cinque gruppi di sicurezza configurati con regole per consentire la comunicazione tra risorse all’interno del VPC.
Gruppi di istanze
Per aggiungere un gruppo di istanze, scegli Aggiungi gruppo. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per implementare un cluster, devi aggiungere almeno un gruppo di istanze.
Importante
Puoi aggiungere un gruppo di istanze alla volta. Per creare più gruppi di istanze, ripeti il processo per ogni gruppo.
Segui questa procedura per aggiungere un gruppo di istanze.
-
In Tipo di gruppo di istanze, scegli un tipo per il tuo gruppo di istanze. Per questo tutorial, scegli Controller (head) per
my-controller-group, Login permy-login-groupe Calcolo (worker) perworker-group-1. -
In Nome, specifica un nome per il gruppo di istanze. Per questo tutorial, crea tre gruppi di istanze denominati
my-controller-group,my-login-groupeworker-group-1. -
In Capacità dell’istanza, scegli la capacità on demand o un piano di addestramento per riservare le tue risorse di calcolo.
-
Per Tipo di istanza, scegli l’istanza per il gruppo di istanze. Per questo tutorial, seleziona
ml.c5.xlargepermy-controller-group,ml.m5.4xlargepermy-login-groupeml.trn1.32xlargeperworker-group-1.Importante
Assicurati di selezionare un tipo di istanza con quote sufficienti e un numero adeguato di indirizzi IP non assegnati per il tuo account. Per visualizzare o richiedere quote aggiuntive, consulta SageMaker HyperPod quote.
-
In Quantità istanze. specifica un numero intero che non sia maggiore della quota dell’istanza per l’utilizzo del cluster. Per questo tutorial, inserisci 1 per tutti e tre i gruppi.
-
In Zona di disponibilità di destinazione, scegli la zona di disponibilità in cui allocare le istanze. La zona di disponibilità deve corrispondere alla posizione della capacità di calcolo accelerata.
-
Per Volume di archiviazione aggiuntivo per istanza (GB) (facoltativo), specifica un numero intero compreso tra 1 e 16.384 per impostare la dimensione di un volume Elastic Block Store (EBS) aggiuntivo in gigabyte (GB). Il volume EBS è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il volume EBS aggiuntivo è
/opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile accedere tramite SSH alle istanze del cluster (nodi) e verificare che il volume EBS sia montato correttamente eseguendo il comandodf -h. Il collegamento di un volume EBS aggiuntivo fornisce un’archiviazione stabile, fuori istanza e con persistenza indipendente, come descritto nella sezione Amazon EBS volumes in Amazon Elastic Block Store User Guide. -
Scegli Aggiungi gruppo di istanze.
Script del ciclo di vita
Puoi scegliere di utilizzare gli script del ciclo di vita predefiniti o quelli personalizzati, che verranno archiviati nel tuo bucket Amazon S3. Puoi visualizzare gli script del ciclo di vita predefiniti nell'archivio Awesome Distributed Training. GitHub
-
In Script del ciclo di vita, scegli tra script del ciclo di vita predefiniti o personalizzati.
-
In Bucket S3 per gli script del ciclo di vita, scegli se creare un nuovo bucket o utilizzare un bucket esistente per archiviare gli script del ciclo di vita.
Permissions
Scegli o crea un ruolo IAM che HyperPod consenta di eseguire e accedere alle AWS risorse necessarie per tuo conto.
Storage
Configura il file system FSx for Lustre da fornire sul HyperPod cluster.
-
Per File system, scegliete un file system FSx for Lustre esistente, FSx per crearne uno nuovo, oppure non installatene uno FSx per Lustre.
-
In Throughput per unità di archiviazione, scegli il throughput che sarà disponibile per ogni TiB di archiviazione allocata.
-
In Capacità di archiviazione, inserisci un valore di capacità in TB.
-
Per Tipo di compressione dei dati, scegliete di LZ4abilitare la compressione dei dati.
-
In Versione Lustre, visualizza il valore consigliato per i nuovi file system.
Tag (facoltativo)
Per i tag: facoltativo, aggiungi coppie di chiavi e valori al nuovo cluster e gestisci il cluster come AWS risorsa. Per ulteriori informazioni, consulta Tagging delle risorse AWS.
Distribuire le risorse
Dopo aver completato le configurazioni del cluster utilizzando Configurazione rapida o Configurazione personalizzata, scegli l’opzione seguente per avviare il provisioning delle risorse e la creazione del cluster.
-
Invia: l' SageMaker IA inizierà a fornire le risorse di configurazione predefinite e a creare il cluster.
-
Scarica i parametri del CloudFormation modello: scaricherai il file JSON dei parametri di configurazione ed eseguirai il AWS CLI comando per distribuire lo CloudFormation stack per fornire le risorse di configurazione e creare il cluster. Se necessario, puoi modificare il file JSON dei parametri scaricato. Se scegli questa opzione, consulta Creazione di cluster utilizzando modelli SageMaker HyperPod CloudFormation per ulteriori informazioni.
Eliminazione del cluster e pulizia delle risorse
Dopo aver testato con successo la creazione di un SageMaker HyperPod cluster, questo continua a funzionare nello InService stato fino a quando non lo elimini. Ti consigliamo di eliminare tutti i cluster creati utilizzando istanze SageMaker AI su richiesta quando non sono in uso per evitare di incorrere in costi di servizio continui in base ai prezzi su richiesta. In questo tutorial hai creato un cluster costituito da due gruppi di istanze. Uno di essi utilizza un’istanza C5, quindi assicurati di eliminare il cluster seguendo le istruzioni riportate in Eliminare un SageMaker HyperPod cluster.
Tuttavia, se hai creato un cluster con capacità di calcolo riservata, lo stato dei cluster non influisce sulla fatturazione del servizio.
Per pulire gli script del ciclo di vita dal bucket S3 utilizzato per questo tutorial, vai al bucket S3 che hai utilizzato durante la creazione del cluster e rimuovi completamente i file.
Se hai testato l'esecuzione di carichi di lavoro sul cluster, assicurati di aver caricato dati o di aver salvato artefatti in diversi bucket S3 o servizi di file system come Amazon FSx for Lustre e Amazon Elastic File System. Per evitare addebiti, elimina tutti gli artefatti e i dati dall’archiviazione o dal file system.